Home Tecnología El modelo de IA que se enseña a pensar en los problemas,...

El modelo de IA que se enseña a pensar en los problemas, no se requieren humanos

43
0

La tubería de varias etapas de Deepseek-R1. Crédito: Naturaleza (2025). Doi: 10.1038/s41586-025-09422-z

La inteligencia artificial se está volviendo más inteligente todos los días, pero todavía tiene sus límites. Uno de los mayores desafíos ha sido enseñar modelos AI avanzados para razonar, lo que significa resolver problemas paso a paso. Pero en un nuevo artículo publicado En la revista Nature, el equipo de Deepseek Ai, una compañía de inteligencia artificial china, informa que pudieron enseñarle a su modelo R1 a razonar por sí solo sin aportes humanos.

Cuando muchos de nosotros intentamos resolver un problema, generalmente no obtenemos la respuesta de inmediato. Seguimos un proceso metódico que puede implicar recopilar información y tomar notas hasta que llegamos a una solución. Tradicionalmente, capacitar a los modelos de IA para razonar ha implicado copiar nuestro enfoque. Sin embargo, es un proceso largo y prolongado en el que las personas muestran un modelo de IA innumerable ejemplos de cómo resolver un problema. También significa que la IA es tan buena como los ejemplos que se da y puede captar los sesgos humanos.

En lugar de mostrar el modelo R1 en cada paso, los investigadores de Deepseek AI utilizaron una técnica llamada aprendizaje de refuerzo. Este enfoque de prueba y error, utilizando recompensas para respuestas correctas, alentó al modelo a razonar para sí mismo.

“En lugar de enseñar explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos y desarrolla de forma autónoma estrategias avanzadas de resolución de problemas”, escribieron los investigadores en su artículo.

El modelo R1 de Deepseek fue entrenado en problemas difíciles de matemáticas, codificación y ciencias. La única recompensa que recibió fue una señal de que su respuesta final fue correcta. Durante su capacitación, los investigadores lo vieron desarrollar habilidades como verificar su propio trabajo y explorar diferentes estrategias para encontrar una solución. Incluso comenzó a usar palabras como “esperar”, ya que reflejaba su propio proceso de pensamiento. Si una ruta condujo a la respuesta correcta, esa estrategia fue reforzada. Si estaba mal, el modelo aprendió a no repetirlo. Hubo alguna intervención humana, pero solo para pulir las habilidades de R1 más adelante en el proceso.

La precisión y la longitud de salida de Deepseek-R1-Zero a lo largo del proceso de entrenamiento. Crédito: Naturaleza (2025). Doi: 10.1038/s41586-025-09422-z

Los resultados fueron impresionantes. R1 funcionó mejor en tareas de matemáticas, codificación y ciencias que los modelos más antiguos capacitados con orientación humana. Uno de los resultados más notables fue que logró una precisión del 86.7% en el American Invitational Mathematics Examination (AIME) 2024, una dura competencia de matemáticas para los estudiantes de secundaria más inteligentes.

Incluso con estos resultados sobresalientes, los investigadores admiten que su modelo tiene algunas limitaciones para trabajar. Por ejemplo, a veces es idiomas mixtos cuando se les dio un mensaje no inglés y hizo que algunos problemas simples fueran más complicados de lo que necesitaba ser. Pero una vez que se resuelven estos problemas, los investigadores creen que un modelo de IA que puede razonar para sí mismo conducirá a una nueva era de modelos más capaces y autónomos.

Escrito para usted por nuestro autor Paul Arnoldeditado por Lisa Locky verificado y revisado por Robert Egan—Este artículo es el resultado de un trabajo humano cuidadoso. Confiamos en lectores como usted para mantener vivo el periodismo científico independiente. Si este informe le importa, considere un donación (especialmente mensual). Obtendrá una cuenta sin anuncios como agradecimiento.

Más información: Daya Guo et al, Deepseek-R1 incentiva el razonamiento en LLM a través del aprendizaje de refuerzo, Naturaleza (2025). Dos: 10.1038/s41586-025-09422-z

© 2025 Science X Network

Cita: El modelo de IA que se enseña a pensar en problemas, no se requieren humanos (2025, 18 de septiembre) recuperado el 18 de septiembre de 2025 de https://techxplore.com/news/2025-09-ai-problems-humans-required.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias