La Visión Agentica es una nueva capacidad para que el modelo Gemini 3 Flash haga que las tareas relacionadas con imágenes sean más precisas al “basar las respuestas en evidencia visual”.
Los modelos de inteligencia artificial de Frontier, como Gemini, suelen procesar el mundo con una sola mirada estática. Si pasan por alto un detalle fino, como el número de serie de un microchip o una señal de tráfico distante, se ven obligados a adivinar.
Este nuevo enfoque “trata la visión como una investigación activa” al combinar el razonamiento visual con la ejecución de código y otras herramientas en el futuro.
Para responder indicaciones con imágenes, Gemini 3 Flash formulará “planes para acercar, inspeccionar y manipular imágenes paso a paso”. Específicamente, Agentic Vision aprovecha un “bucle de pensar, actuar y observar”.
Piense: el modelo analiza la consulta del usuario y la imagen inicial, formulando un plan de varios pasos. Actuar: el modelo genera y ejecuta código Python para manipular activamente imágenes (por ejemplo, recortarlas, rotarlas, anotarlas) o analizarlas (por ejemplo, ejecutar cálculos, contar cuadros delimitadores, etc.). Observe: la imagen transformada se agrega a la ventana contextual del modelo. Esto permite que el modelo inspeccione los nuevos datos con un mejor contexto antes de generar una respuesta final.
En lugar de simplemente describir una imagen dada, Gemini 3 Flash “puede ejecutar código para dibujar directamente en el lienzo para fundamentar su razonamiento”. Un ejemplo de esta anotación de imagen en la aplicación Gemini es pedir “contar los dígitos de una mano”.
Anuncio: desplácese para ver más contenido
Para evitar errores de conteo, utiliza Python para dibujar cuadros delimitadores y etiquetas numéricas sobre cada dedo que identifica. Este “bloc de notas visual” garantiza que su respuesta final se base en una comprensión perfecta de los píxeles.
Mientras tanto, Gemini 3 Flash hará zoom cuando detecte detalles finos en la imagen. Agentic Vision también puede “analizar tablas de alta densidad y ejecutar código Python para visualizar los hallazgos”.
Los LLM estándar a menudo alucinan durante la aritmética visual de varios pasos. Gemini 3 Flash evita esto al descargar el cálculo a un entorno determinista de Python… Esto reemplaza las conjeturas probabilísticas con una ejecución verificable.
Agentic Vision da como resultado un “aumento constante de calidad del 5 al 10 % en la mayoría de los puntos de referencia de visión” para Gemini 3 Flash.
Esto está comenzando a implementarse en la aplicación Gemini con el modelo Thinking. Para los desarrolladores, está disponible hoy con la API Gemini en Google AI Studio y Vertex AI.
En el futuro, Gemini 3 Flash mejorará en la rotación de imágenes o en la realización de cálculos visuales sin un “empujón explícito para activarlo”. Hoy, Agentic Vision decidirá implícitamente cuándo hacer zoom.
Además de la ejecución de código, las herramientas futuras permitirán a Gemini utilizar la búsqueda web y de imágenes inversas para “fundamentar aún más su comprensión del mundo”. Agentic Vision también estará disponible con otros modelos Gemini.
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.









