Home Tecnología ‘Gemini 2.5 Computer Use’ tiene un sólido rendimiento web y Android

‘Gemini 2.5 Computer Use’ tiene un sólido rendimiento web y Android

66
0

Google es ahora dejando Los desarrolladores obtienen una vista previa del modelo de uso de computadora Gemini 2.5 detrás de Project Mariner y las funciones agentes en modo AI.

Este “modelo especializado” puede interactuar con interfaces gráficas de usuario, específicamente navegadores y sitios web. Hay varios pasos que suceden en un bucle “hasta que se completa la tarea”.

Enviar una solicitud al modelo: las entradas incluyen la “solicitud del usuario, una captura de pantalla del entorno y un historial de acciones recientes”. “Luego, el modelo analiza estas entradas y genera una respuesta, generalmente una llamada de función que representa una de las acciones de la interfaz de usuario, como hacer clic o escribir”. Reciba la respuesta del modelo: “… el código del lado del cliente luego ejecuta la acción recibida”. “Después de ejecutar la acción, se envía una nueva captura de pantalla de la GUI y la URL actual al modelo de uso de la computadora como respuesta de la función reiniciando el ciclo”.

Otras acciones de la interfaz de usuario admitidas por el modelo incluyen retroceder/adelante, buscar en la web, navegar a una URL específica, desplazar el cursor, combinaciones de teclado, desplazarse y arrastrar/soltar.

Google compartió dos ejemplos (a velocidad 3X) con las siguientes indicaciones:

Anuncio: desplácese para ver más contenido

“De https://tinyurl.com/pet-care-signupobtenga todos los detalles de cualquier mascota con residencia en California y agréguela como invitada en mi CRM de spa en https://pet-luxe-spa.web.app/. Luego, programe una cita de visita de seguimiento con el especialista Anima Lavar para el 10 de octubre en cualquier momento después de las 8 a.m. El motivo de la visita es el mismo que el tratamiento solicitado”.

“Mi club de arte hizo una lluvia de ideas sobre tareas antes de nuestra feria. El tablero es caótico y necesito tu ayuda para organizar las tareas en algunas categorías que creé. Ir a sticky-note-jam.web.app y asegúrese de que las notas estén claramente en las secciones correctas. Arrástralos allí si no”.

Gemini 2.5 Computer Use está “optimizado principalmente para navegadores web”. Sin embargo, Google tiene un punto de referencia “AndroidWorld” que “demuestra una gran promesa para las tareas de control de la interfaz de usuario móvil”, mientras que “aún no está optimizado para el control a nivel del sistema operativo de escritorio”.

Google demostró un sólido rendimiento en los puntos de referencia de control web y móvil en comparación con la oferta de Claude y OpenAI, así como “calidad líder para el control del navegador con la latencia más baja”.

Este modelo se basa en las capacidades de razonamiento y comprensión visual de Gemini 2.5 Pro. Google dice que “versiones de este modelo” impulsan las capacidades agentes del Proyecto Mariner y AI Mode. Se ha utilizado internamente para pruebas de interfaz de usuario para acelerar el desarrollo de software, mientras que Google tiene un programa de acceso temprano para desarrolladores externos que crean asistentes y herramientas de automatización del flujo de trabajo.

Gemini 2.5 Computer Use está disponible en versión preliminar pública hoy a través de la API Gemini en Google AI Studio y Vertex AI.

Pruébelo ahora: en un entorno de demostración alojado por Base del navegador.

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Fuente de noticias