Tecnología

La investigación muestra que los humanos aún son mejores que la IA en leer la habitación

Crédito: dominio público Unsplash/CC0

Resulta que los humanos son mejores que los modelos AI actuales para describir e interpretar las interacciones sociales en una escena conmovedora, una habilidad necesaria para autos autónomos, robots de asistencia y otras tecnologías que dependen de los sistemas de IA para navegar por el mundo real.

La investigación, dirigida por científicos de la Universidad Johns Hopkins, encuentra que los sistemas de inteligencia artificial fallan en la comprensión de la dinámica social y el contexto necesarios para interactuar con las personas y sugiere que el problema puede estar basado en la infraestructura de los sistemas de IA.

“La IA para un automóvil autónomo, por ejemplo, necesitaría reconocer las intenciones, los objetivos y las acciones de los conductores humanos y los peatones. Desea que sepa de qué manera un peatón está a punto de comenzar a caminar, o si dos personas están en una conversación en lugar de cruzar la calle”, dijo la autora principal de Leyla Isik, profesora asistente de ciencias cognitivas en la Universidad de Johns Hopkins.

“Cada vez que quieras que una IA interactúe con los humanos, quieres que pueda reconocer lo que la gente está haciendo. Creo que esto arroja luz sobre el hecho de que estos sistemas no pueden en este momento”.

Kathy García, una estudiante de doctorado que trabaja en el laboratorio de ISIK en el momento del autor de investigación y co -primero, presentó los resultados de la investigación en la Conferencia Internacional sobre Representaciones de aprendizaje el 24 de abril. El estudio también se publica en la revista Psyarxiv.

Para determinar cómo se miden los modelos de IA en comparación con la percepción humana, los investigadores pidieron a los participantes humanos que vieran videoclips de tres segundos y las características de calificación importantes para comprender las interacciones sociales en una escala de uno a cinco. Los clips incluyeron personas que interactuaron entre sí, realizaban actividades de lado a lado o realizaban actividades independientes por su cuenta.

Luego, los investigadores solicitaron más de 350 modelos de lenguaje, video e imagen de IA para predecir cómo los humanos juzgarían los videos y cómo sus cerebros responderían a la observación. Para modelos de idiomas grandes, los investigadores hicieron que los AI evaluaran subtítulos cortos y escritos por humanos.

Los participantes, en su mayor parte, estuvieron de acuerdo entre sí en todas las preguntas; Los modelos de IA, independientemente del tamaño o los datos en los que fueron entrenados, no lo hicieron. Los modelos de video no pudieron describir con precisión lo que la gente estaba haciendo en los videos.

Incluso los modelos de imagen que recibieron una serie de marcos aún para analizar no podían predecir de manera confiable si las personas se estaban comunicando. Los modelos de lenguaje fueron mejores para predecir el comportamiento humano, mientras que los modelos de video fueron mejores para predecir la actividad neuronal en el cerebro.

Los resultados proporcionan un fuerte contraste con el éxito de la IA en la lectura de imágenes fijas, dijeron los investigadores.

“No es suficiente ver una imagen y reconocer objetos y caras. Ese fue el primer paso, lo que nos llevó mucho a la IA. Pero la vida real no es estática. Necesitamos AI para comprender la historia que se está desarrollando en una escena. Comprender las relaciones, el contexto y la dinámica de las interacciones sociales es el próximo paso, y esta investigación sugiere que podría haber un punto ciego en el desarrollo del modelo de IA”, dijo Garcia.

Los investigadores creen que esto se debe a que las redes neuronales de IA se inspiraron en la infraestructura de la parte del cerebro que procesa imágenes estáticas, que es diferente del área del cerebro que procesa escenas sociales dinámicas.

“Hay muchos matices, pero la gran comida para llevar es que ninguno de los modelos de IA puede igualar el cerebro humano y las respuestas de comportamiento a las escenas en todos los ámbitos, como lo hacen para escenas estáticas”, dijo Isik. “Creo que hay algo fundamental en la forma en que los humanos están procesando escenas que faltan estos modelos”.

Más información: Kathy García et al. El modelado de la visión social dinámica destaca las brechas entre el aprendizaje profundo y los humanos. Hall 3 + Hall 2B #64

Kathy García et al, Modeling Dynamic Social Vision destaca las brechas entre el aprendizaje profundo y los humanos, Psyarxiv (2024). Doi: 10.31234/osf.io/4mpd9

Proporcionado por la Universidad Johns Hopkins

Cita: La investigación muestra que los humanos siguen siendo mejores que la IA en Reading the Room (2025, 24 de abril) Recuperado el 24 de abril de 2025 de https://techxplore.com/news/2025-04-humans-ai-room.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button