Home Tecnología Un enfoque novedoso y multimodal para la evaluación automatizada de habilidades de...

Tecnología

Un enfoque novedoso y multimodal para la evaluación automatizada de habilidades de oratoria

3 junio 2025

Un marco propuesto para estimar simultáneamente habilidades multifacéticas de comunicación en inglés. Los sistemas desarrollados previamente para la evaluación automatizada de la competencia de habla se centran en criterios de evaluación limitados. Sin embargo, el uso de un nuevo conjunto de datos de evaluación de inglés hablado multimodal, que comprende transcripciones sincronizadas de audio, video y texto, permite una evaluación más completa e interpretable. Crédito: Candy Olivia Mawalim de Jaist

La capacidad de comunicarse de manera efectiva en el inglés hablado es un determinante clave del éxito académico y profesional. Tradicionalmente, el grado de dominio sobre la gramática inglesa, el vocabulario, la pronunciación y las habilidades de comunicación se ha evaluado a través de pruebas tediosas y costosas administradas por humanos.

Sin embargo, con el advenimiento de la inteligencia artificial (IA) y el aprendizaje automático en los últimos años, las pruebas automatizadas de evaluación de inglés hablado han ganado una inmensa popularidad entre los investigadores de todo el mundo.

Si bien las evaluaciones de oratoria basadas en el monólogo son frecuentes, carecen de relevancia del mundo real, particularmente en entornos donde un diálogo o interacción grupal es crucial. Además, la investigación sobre la evaluación automatizada de las habilidades de inglés hablado en entornos interactivos sigue siendo limitada y a menudo se centra solo en modalidades individuales, como texto o audio.

Desde este punto de vista, un equipo de investigadores dirigidos por el profesor Shogo Okada que incluía al profesor asistente Candy-Olivia Mawalim del Instituto Avanzado de Ciencia y Tecnología de Japón (JAIST), ha desarrollado un marco de aprendizaje multioutpit que puede evaluar simultáneamente múltiples aspectos de la competencia del inglés hablado. Sus hallazgos se publican en línea en la revista Computers and Education: inteligencia artificial.

Los investigadores utilizaron un nuevo conjunto de datos de evaluación de inglés hablado (ver) que comprende transcripciones sincronizadas de audio, video y texto de entrevistas abiertas y de alto riesgo con adolescentes (9-16 años) que se aplican a las escuelas secundarias y universidades. Este conjunto de datos fue recopilado por el servicio real de Vreicant y es particularmente notable por incorporar puntajes asignados a expertos supervisados por los investigadores del Servicio de Pruebas de Educación (ETS) en una variedad de dimensiones de habilidades de oratoria, lo que permite un análisis rico y multimodal de la competencia del inglés.

El Dr. Mawalim dice: “Nuestro marco permite el modelado e integración de diferentes aspectos de la competencia de habla, mejorando así nuestra comprensión de los diversos factores subyacentes. Además, al incorporar la configuración de entrevistas abiertas en nuestro marco de evaluación, podemos evaluar la capacidad de un individuo para participar en una comunicación espontánea y creativa y su competencia sociolinguista general”.

El marco de aprendizaje multioutput desarrollado por el equipo integra características acústicas como la prosodia, señales visuales como unidades de acción facial y patrones lingüísticos como la toma de turnos. En comparación con los enfoques unimodales, esta estrategia multimodal aumentó significativamente la precisión de la predicción, logrando una precisión de predicción de puntaje general de aproximadamente el 83% utilizando el algoritmo de la máquina de impulso de gradiente de luz (LightGBM).

“Los hallazgos de nuestro estudio tienen amplias implicaciones, que ofrecen diversas aplicaciones para las partes interesadas en varios campos”, dice el profesor Okada. “Además de proporcionar información directa procesable para que los estudiantes mejoren su dominio del inglés hablado, nuestro enfoque puede ayudar a los maestros a adaptar sus instrucciones para abordar las necesidades individuales de los estudiantes. Además, nuestro marco de aprendizaje de múltiples salidas puede ayudar al desarrollo de modelos más transparentes e interpretables para la evaluación de las habilidades del lenguaje hablado”.

Los científicos también estudiaron la importancia de la secuencia de expresión en el dominio del inglés hablado. Las representaciones del codificador bidireccional de Transformers (BERT), un modelo de aprendizaje profundo previamente capacitado, revelaron que el enunciado inicial tenía mucha importancia para predecir la competencia hablada. Además, también se evaluó la influencia de factores externos, como el comportamiento del entrevistador y el entorno de la entrevista sobre el dominio del inglés hablado.

Sus análisis mostraron que las características específicas, como el discurso del entrevistador, el género y el entorno de entrevistas remotas o en persona, afectaron significativamente la coherencia de las respuestas de los entrevistados.

“Con el rápido crecimiento de las tecnologías impulsadas por la IA y su integración en expansión en nuestra vida diaria, las evaluaciones multimodales podrían convertirse en estándar en entornos educativos en el futuro cercano. Esto puede permitir a los estudiantes recibir comentarios altamente personalizados sobre sus habilidades de comunicación, no solo el dominio del lenguaje.

“Esto podría conducir a planes de estudio y métodos de enseñanza a medida, ayudando a los estudiantes a perfeccionar y desarrollar habilidades blandas cruciales como hablar en público, presentación y comunicación interpersonal de manera más efectiva”, dice el Dr. Mawalim, autor principal del presente estudio.

En conjunto, la investigación ofrece un enfoque más matizado e interpretable para la evaluación automatizada de inglés hablado y establece las bases para desarrollar herramientas inteligentes centradas en el estudiante en contextos educativos y profesionales.

Más información: Candy Olivia Mawalim et al, más allá de la precisión: modelado multimodal de índices de habilidades de habla estructurada en adolescentes jóvenes, computadoras y educación: inteligencia artificial (2025). Doi: 10.1016/j.caeai.2025.100386

Proporcionado por el Instituto Avanzado de Ciencia y Tecnología de Japón

Cita: Un enfoque novedoso y multimodal para la evaluación automatizada de habilidades de habla (2025, 2 de junio) Recuperado el 2 de junio de 2025 de https://techxplore.com/news/2025-06-multimodal-proach-automated-skill.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Un enfoque novedoso y multimodal para la evaluación automatizada de habilidades de oratoria

Entradas recientes

Schwarzenegger: Si eres un inmigrante en los Estados Unidos, debes ‘comportarse...

Hombre de Aurora sospechoso en 3 asesinatos durante un tramo de...

El nombre del héroe de la guerra de Wallaby para vivir...

Nederland comprará la estación de esquí Eldora, anunció la ciudad en...

Rusia vs Guerra de Ucrania: Trump para enviar armas estadounidenses poderosas...

El adolescente de Man Utd quería en Europa, ya que Ruben...

Categorías