Home Tecnología El sistema AI descubre categorías visuales mientras se adapta a nuevos contextos

El sistema AI descubre categorías visuales mientras se adapta a nuevos contextos

47
0

Al identificar objetos que se pueden vender en una venta de garaje, la categorización ad-hoc, o roble para abreviar, puede descubrir nuevas categorías como sombreros o equipaje, incluso cuando solo se proporciona el concepto de ‘zapatos’ y algunos ejemplos de imágenes de zapatos durante la capacitación. El sistema aprovecha los datos no etiquetados y las etiquetas escasas para identificar conceptos tanto conocidos como desconocidos que se ajustan al contexto de venta de garaje. Crédito: Wang et al., 2025.

Un nuevo enfoque llamado categorización AD-hoc (roble) abierta ayuda a los sistemas AI a reinterpretar dinámicamente la misma imagen de manera diferente dependiendo del contexto de categorización, en lugar de usar una interpretación visual fija. Un estudio liderado por la Universidad de Michigan sobre este tema se presentó en junio de 2025 en el Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) en Nashville, Tennessee.

“Cuando las personas piensan en usar AI para la categorización de imágenes, a menudo asumen que cada imagen tiene un significado objetivo y objetivo. Nuestro trabajo muestra que una imagen puede verse desde múltiples perspectivas, dependiendo de la tarea, el contexto u objetivos. Al igual que los humanos no ven una imagen como estática, pero adaptan su significado basado en lo que necesitan, AI debe interpretar de manera flexible, ajustando en base a contexto y objetivos”, dijo Stella yu, un profesor de la computación de la computación de la computación en base a la IMPRESA e IMPRUT IMPRADURA DE IMÁGENES DE LA IMÁGENES DE LA IGRÁS ALTENTA DE LA INFIEPITUD.

La categorización de IA anterior utilizó categorías rígidas fijas como “Silla”, “automóvil” o “perro” que no podía adaptarse a diferentes propósitos o contextos. El roble puede evaluar la misma imagen de manera diferente dependiendo del contexto deseado. Por ejemplo, una imagen de una persona bebiendo podría clasificarse por la acción “beber”, la ubicación “en una tienda,” o el estado de ánimo “feliz”.

El equipo de investigación construyó su modelo expandiéndose en el clip de OpenAI, un modelo de IA de la visión de la base que aprende a asociar imágenes con descripciones textuales. Agregaron tokens de contexto que funcionan como conjuntos de instrucciones especializados para el modelo AI. Estos tokens, aprendidos de datos etiquetados y no etiquetados, se alimentan al sistema junto con los datos de la imagen para dar forma al procesamiento de características visuales para diferentes contextos. Esto da como resultado que el modelo se centre naturalmente en las regiones de imágenes relevantes, como las manos para la acción o los antecedentes para la ubicación, sin que se cuente explícitamente dónde buscar.

Es importante destacar que los nuevos tokens de contexto sufren capacitación, mientras que el sistema de clips original sigue siendo el mismo, lo que permite que el modelo se adapte a diferentes propósitos sin perder el conocimiento existente.

“Nos sorprendió cuán efectivamente el sistema aprendió a enfocar la atención adecuadamente y organizar datos limpiamente con un mecanismo tan simple de solo unas pocas fichas y algunos ejemplos etiquetados por contexto”, dijo Zilin Wang, un estudiante doctoral de informática e ingeniería en UM y autor principal del estudio.

Además, Oak puede descubrir nuevas categorías que nunca ha visto durante el entrenamiento. Por ejemplo, cuando se le pide que reconozca artículos en una imagen que se puede vender en una venta de garaje, el sistema aprendería a encontrar artículos como equipaje o sombreros, incluso si solo se mostraba ejemplos de zapatos.

Oak descubre nuevas categorías combinando enfoques de arriba hacia abajo y de abajo hacia arriba. La guía semántica de arriba hacia abajo utiliza el conocimiento del lenguaje para proponer nuevas categorías posibles. Si sabe que los zapatos se pueden vender en la venta de garaje, el sistema extiende que para proponer sombreros también podría venderse en las ventas de garaje, incluso sin ver un ejemplo de sombrero durante la capacitación.

Además de su conocimiento del lenguaje, Oak utiliza la agrupación visual ascendente que descubre patrones en datos visuales no etiquetados. El sistema podría notar muchas maletas que aparecen en imágenes no etiquetadas para la tarea en cuestión. Por lo tanto, descubre una nueva categoría relevante para la venta de garaje, a pesar de que ninguna maleta está etiquetada como un artículo válido.

Los investigadores obtienen estos dos enfoques para trabajar juntos durante la capacitación. Las propuestas semánticas como los sombreros solicitan al sistema visual que busque sombreros, y si se encuentran, confirma una nueva categoría válida. Por otro lado, los clústeres visuales notables utilizan el conocimiento existente de texto de imagen de Clip para ayudar a identificar cómo llamar al clúster.

“Estamos buscando nuevas categorías utilizando los métodos de arriba hacia abajo y de abajo hacia arriba, y tienen que interactuar”, dijo Wang.

El equipo de investigación probó Oak’s en dos conjuntos de datos de imágenes, Stanford y CLEVR-4, y comparó el rendimiento con dos grupos de modelos de referencia: Clip con un vocabulario extendido y descubrimiento de categorías generalizados o GCD.

El roble logró el estado del arte tanto en precisión como en el descubrimiento de conceptos en múltiples categorizaciones. En particular, Oak alcanzó el 87.4% de precisión novedosa al identificar el estado de ánimo en el conjunto de datos de Stanford, superando el clip y el GCD en más del 50%.

Si bien todos los métodos generan mapas de prominencia, los mapas de Oak se centran en la parte correcta de la imagen para cada contexto aprendiendo de datos en lugar de ser programados, ofreciendo flexibilidad y resultados interpretables.

En el futuro, el enfoque contextual de Oak será útil en aplicaciones como la robótica, donde los sistemas deben percibir el mismo entorno de manera diferente en función de su tarea actual.

La Universidad de California, Berkeley y el Centro Bosch para AI también contribuyeron a esta investigación.

Más información: Abra la categorización ad-hoc con aprendizaje contextualizado de características: cvpr.thecvf.com/virtual/2025/ponter/34699

Proporcionado por la Universidad de Michigan College of Engineering

Cita: el sistema AI descubre categorías visuales mientras se adapta a nuevos contextos (2025, 6 de agosto) recuperado el 6 de agosto de 2025 de https://techxplore.com/news/2025-08-ai-visual-categories-contexts.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias