Home Tecnología La IA genera datos para ayudar a los agentes encarnados a tierra...

La IA genera datos para ayudar a los agentes encarnados a tierra el lenguaje al mundo 3D

76
0

Un nuevo conjunto de datos de texto 3D, niebla 3D, aprovecha la IA generativa para crear habitaciones sintéticas que se anotan automáticamente con estructuras 3D. Las 40.087 escenas domésticas del conjunto de datos pueden ayudar a entrenar la IA incorporada, como los robots domésticos, conectar el lenguaje a los espacios 3D. Crédito: Joyce Chai

Un nuevo conjunto de datos de texto 3D de texto densamente anotado llamado 3D-Grand puede ayudar a entrenar IA incorporada, como los robots domésticos, para conectar el lenguaje a los espacios 3D. El estudio, dirigido por los investigadores de la Universidad de Michigan, se presentó en la Conferencia de Reconocimiento de Visión y Patrones de la Computadora (CVPR) en Nashville, Tennessee, el 15 de junio, y se publicó en la arxiv servidor de preimpresión.

Cuando se puso a la prueba en conjuntos de datos 3D anteriores, el modelo entrenado en 3D Grand alcanzó el 38% de precisión de conexión a tierra, superando el mejor modelo anterior en un 7,7%. 3D-Grand también redujo drásticamente alucinaciones a solo 6.67% de la tasa de estado anterior del 48%.

El conjunto de datos contribuye a la próxima generación de robots domésticos que superarán con creces las aspiradoras robóticas que actualmente pueblan hogares. Antes de que podamos ordenar a un robot que “recoja el libro al lado de la lámpara en la mesita de noche y tráelo”, el robot debe ser entrenado para comprender a qué se refiere el lenguaje en el espacio.

“Los grandes modelos de lenguaje multimodal se entrenan principalmente en texto con imágenes 2D, pero vivimos en un mundo 3D. Si queremos que un robot interactúe con nosotros, debe comprender los términos y perspectivas espaciales, interpretar las orientaciones de objetos en el espacio y el lenguaje terrestre en el rico entorno 3D”, dijo Joyce Chai, profesor de informática e ingeniería de UM y autor senior del estudio.

Si bien los modelos de IA basados ​​en texto o de imagen pueden extraer una enorme cantidad de información de Internet, los datos 3D son escasos. Es aún más difícil encontrar datos 3D con datos de texto fundamentados: las palabras específicas que se refieren a las palabras específicas como el “sofá” están vinculadas a coordenadas 3D que limitan el sofá real.

Al igual que todos los LLM, 3D-LLMS funcionan mejor cuando se entrenan en grandes conjuntos de datos. Sin embargo, construir un conjunto de datos grande en salas de imágenes con cámaras sería intensivo en el tiempo y costoso ya que los anotadores deben especificar manualmente los objetos y sus relaciones espaciales y vincular las palabras con sus objetos correspondientes.

El equipo de investigación adoptó un nuevo enfoque, aprovechando la IA generativa para crear habitaciones sintéticas que se anotan automáticamente con estructuras 3D. El conjunto de datos de grandios 3D resultantes incluye 40,087 escenas domésticas combinadas con 6.2 millones de descripciones densamente fundamentadas de la habitación.

“Una gran ventaja de los datos sintéticos es que las etiquetas vienen de forma gratuita porque ya sabe dónde está el sofá, lo que facilita el proceso de curación”, dijo Jianing Jed Yang, estudiante de doctorado de informática e ingeniería en UM y autor principal del estudio.

Después de generar los datos 3D sintéticos, una tubería de IA utilizó los modelos de visión primero para describir el color, la forma y el material de cada objeto. A partir de aquí, un modelo de texto solo generó descripciones de escenas enteras mientras usa gráficos de escena, mapas estructurados de cómo los objetos se relacionan entre sí, para garantizar que cada frase del sustantivo esté basada en objetos 3D específicos.

Un paso final de control de calidad utilizó un filtro de alucinación para garantizar que cada objeto generado en el texto realmente tenga un objeto asociado en la escena 3D.

Los evaluadores humanos verificaron 10,200 pares de anotación de habitaciones para garantizar la confiabilidad al evaluar si hubo inexactitud en oraciones u objetos generados por IA. Las anotaciones sintéticas tenían una baja tasa de error de aproximadamente 5% a 8%, lo que es comparable a las anotaciones humanas profesionales.

“Dado el tamaño del conjunto de datos, la anotación basada en LLM reduce tanto el costo como el tiempo por un orden de magnitud en comparación con la anotación humana, creando 6.2 millones de anotaciones en solo dos días. Es ampliamente reconocido que recolectar datos de alta calidad a escala es esencial para construir modelos AI efectivos”, dijo Yang.

Para poner a prueba el nuevo conjunto de datos, el equipo de investigación capacitó a un modelo en 3D-Grand y lo comparó con tres modelos de referencia (3D-LLM, LEO y 3D-Vista). La precisión de la base evaluada de Benchmark ScanRefer, cuánto se superpone la superposición de la caja delimitadora prevista con el límite de objeto verdadero, mientras que un punto de referencia recién introducido llamado alucinaciones de objetos evaluados en 3D-Pope.

El modelo entrenado en 3D-Gran alcanzó una precisión de base del 38% con solo una tasa de alucinación del 6.67%, superando con creces los modelos generativos competitivos. Mientras que 3D-Grand contribuye a la comunidad de modelado 3D-LLM, las pruebas en robots serán el siguiente paso.

“Será emocionante ver cómo 3D-Grand ayuda a los robots a comprender mejor el espacio y asumir diferentes perspectivas espaciales, mejorando lo que se comunica y colabora con los humanos”, dijo Chai.

Más información:
Jianing Yang et al, 3D-Grand: un conjunto de datos de un millón de escala para 3D-LLMS con mejor conexión a tierra y menos alucinación, arxiv (2024). Doi: 10.48550/arxiv.2406.05132

Información en el diario:
arxiv

Proporcionado por la Universidad de Michigan College of Engineering

Citación: La IA genera datos para ayudar a los agentes incorporados a tierra el lenguaje al mundo 3D (2025, 16 de junio) recuperado el 16 de junio de 2025 de

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Source link