¿Hablaremos más con nuestros teléfonos en 2026?

29 diciembre 2025

Una cosa que pensé que veríamos más en 2025 fue cómo Gemini podría controlar su teléfono Android. Hubo una demostración de mayo y otros trabajos subyacentes, pero aún no tenemos la visión completa de Google.

En I/O 2025 en mayo, Google hizo una demostración del último prototipo de investigación del Proyecto Astra que podría recuperar contenido de la web/Chrome, buscar y reproducir videos de YouTube, buscar en sus correos electrónicos, hacer llamadas en su nombre y realizar pedidos.

La demostración de casi 2 minutos mostró a Gemini desplazándose por un PDF en Chrome para Android, además de abrir la aplicación de YouTube en la página de resultados de búsqueda, desplazarse y luego seleccionar/tocar un video. Google está trabajando para llevar estas capacidades a Gemini Live.

En octubre, Google puso a disposición de los desarrolladores un modelo de uso de la computadora en versión preliminar que permite a Gemini interactuar con interfaces de usuario (desplazándose, haciendo clic y escribiendo) como lo hacen los humanos. Lo que está disponible actualmente está “optimizado para navegadores web”, pero Google destacó “una gran promesa para las tareas de control de la interfaz de usuario móvil”.

Anuncio: desplácese para ver más contenido

Google describió estas capacidades como un “próximo paso crucial en la creación de agentes potentes y de uso general”, ya que “muchas tareas digitales aún requieren interacción directa con interfaces gráficas de usuario”.

A versión futura de Siri te permitirá “tomar medidas en y entre aplicaciones” usando tu voz. La visión que Apple presentó en 2024 es que las tareas que habrían requerido pasar por varias aplicaciones “podrían abordarse en cuestión de segundos” a través de una serie de indicaciones de voz. Apple ha detallado lo que deben hacer los desarrolladores de aplicaciones para apoyar esto. Hasta ahora, no hemos recibido nada de Google, específicamente del equipo de Android, si se avecina un sistema o enfoque similar.

…Siri puede realizar acciones en todas las aplicaciones, por lo que después de pedirle a Siri que mejore una foto diciendo “Haz que esta foto destaque”, puedes pedirle a Siri que la coloque en una nota específica en la aplicación Notas, sin mover un dedo.

En cambio, lo que ha mostrado Google es muy generalizado y parece no requerir ninguna integración previa. En muchos sentidos, es un enfoque pragmático, especialmente si los desarrolladores de Android no se apresuran a admitir esto en sus aplicaciones.

Esta no es la primera vez que Google trabaja en este sentido. La premisa del nuevo Asistente de Google en 2019 era que el procesamiento de voz en el dispositivo (un gran avance en ese momento) haría que “tocar para usar el teléfono… pareciera lento”.

Este Asistente de próxima generación le permitirá operar instantáneamente su teléfono con su voz, realizar múltiples tareas en aplicaciones y completar acciones complejas, todo con una latencia casi nula.

Esto realmente no despegó en 2019 y nunca abandonó la exclusividad de Pixel, ya que sufrió los mismos problemas de la era anterior de asistentes, como los comandos de voz reglamentados.

Los LLM deberían permitirle expresar su comando de manera conversacional. Con suerte, también soluciona las limitaciones de capacidad al poder realizar acciones en cualquier aplicación o sitio web sin haber estado expuesto previamente a él, lo que parece ser la limitación en el sistema de Apple.

La IA generativa parece abordar todas las quejas del enfoque anterior de Google, pero me pregunto cómo lo abordará la gente esta vez.

Algunos escenarios en los que esto sería útil son bastante obvios, como el uso de manos libres, como Google quería mostrar en la demostración de Astra. De manera conservadora, esperaría que este sea el alcance de la adopción generalizada el próximo año.

Las implicaciones para las gafas inteligentes (o incluso los relojes) son profundas. Después de todo, no ejecutará aplicaciones del tamaño de un teléfono en gafas con pantalla en el corto plazo. Imagínese si su teléfono pudiera controlarse y transmitirse información desde esos dispositivos secundarios, incluidos los auriculares, mientras la pantalla permanece apagada en su bolsillo.

Más allá de eso, mi gran pregunta es si este control por voz, suponiendo una precisión perfecta, algún día se convertirá en el principal método de interacción táctil del usuario para su teléfono, si no es para su computadora portátil.

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Fuente de noticias

¿Hablaremos más con nuestros teléfonos en 2026?

Entradas recientes

Schwarzenegger: Si eres un inmigrante en los Estados Unidos, debes ‘comportarse...

Hombre de Aurora sospechoso en 3 asesinatos durante un tramo de...

El nombre del héroe de la guerra de Wallaby para vivir...

Rusia vs Guerra de Ucrania: Trump para enviar armas estadounidenses poderosas...

El adolescente de Man Utd quería en Europa, ya que Ruben...

Nederland comprará la estación de esquí Eldora, anunció la ciudad en...

Categorías