Home Tecnología El enfoque basado en la agrupación acelera el aprendizaje de IA en...

El enfoque basado en la agrupación acelera el aprendizaje de IA en robótica y juegos

37
0

(a) Usar la agrupación para dividir los estados recolectados (puntos azules) en cinco grupos. El agente es recompensado con uno en el área naranja y no recibe recompensa en otras áreas; (b) las recompensas de bonificación basadas en la agrupación con novedad sola; (c) Las recompensas de bonificación basadas en la agrupación. La barra azul representa la parte de las recompensas de bonificación que reflejan la novedad de los estados, y la barra naranja representa la porción que refleja la calidad de los estados. Crédito: fronteras de la informática (2024). Doi: 10.1007/s11704-024-3194-1

Enseñar a la IA a explorar su entorno es un poco como enseñar a un robot para encontrar tesoros en un vasto laberinto: necesita probar diferentes caminos, pero algunos no llevan a ninguna parte. En muchos desafíos del mundo real, como entrenar robots o jugar juegos complejos, las recompensas son pocas y distantes, lo que facilita que la IA pierda el tiempo en los callejones sin salida.

Para abordar este desafío, los investigadores de la Universidad de Nanjing y UC Berkeley idearon una forma interesante de enseñar IA: Aprendizaje de refuerzo en clúster (CRL). En lugar de deambular sin rumbo o solo perseguir grandes puntajes, este método clasifica situaciones similares en “grupos”. Recompensa a la IA por probar cosas nuevas y por basarse en éxitos pasados.

La investigación se publica en la revista Frontiers of Computer Science.

“Al agrupar experiencias y equilibrar la curiosidad con el éxito probado, le hemos dado a IA una forma más humana de aprender”, dice el profesor Wu-Jun Li, investigador principal del proyecto.

La magia de dos pasos: experiencias de agrupación y victorias gratificantes

Entonces, ¿cómo saca CRL estas victorias? En lugar de tratar cada estado como único y no conectado, CRL agrupa estados similares en grupos utilizando una técnica llamada K-means. Luego, cada grupo se analiza para medir dos cosas: con qué frecuencia se ha visitado (novedad) y qué tan bueno es el resultado promedio (calidad).

CRL asigna recompensas de bonificación basadas en estos dos factores: envolver al agente para explorar áreas que no solo son nuevas, sino que también pueden producir buenos resultados. Esto contrasta con los métodos tradicionales que persiguen solo la novedad, lo que a menudo lleva al agente a áreas improductivas.

Resultados e impacto: aprendizaje rápido, utilidad del mundo real

Al combinar la curiosidad con la guía basada en resultados, CRL permite que la IA aprenda más rápido y con menos errores. Logró el máximo rendimiento en múltiples puntos de referencia estándar, incluidas tareas de control robótico y juegos de Atari difíciles, superando varios métodos de última generación. Además, CRL se puede agregar fácilmente a los sistemas de IA existentes como una mejora modular.

Esto lo hace especialmente prometedor para dominios de alto riesgo como la conducción autónoma, la optimización de energía y la programación inteligente, donde el aprendizaje seguro y eficiente es esencial.

Al combinar la agrupación simple con los ajustes de recompensas de luz, CRL abre la puerta al entrenamiento de IA más seguro, más rápido y más confiable. A medida que las máquinas inteligentes se mudan a nuestra vida cotidiana, desde robots de almacén hasta navegación de la calle de la ciudad, los métodos como este les ayudarán a aprender rápidamente, evitar errores costosos y necesitar menos niños humanos.

Más información: Xiao Ma et al, Aprendizaje de refuerzo agrupado, fronteras de la informática (2024). Doi: 10.1007/s11704-024-3194-1

Proporcionado por la prensa de educación superior

Cita: el enfoque basado en la agrupación acelera el aprendizaje de IA en robótica y juegos (2025, 30 de mayo) Recuperado el 30 de mayo de 2025 de https://techxplore.com/news/2025-05-clustering-procheach-ai-hobotics.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.