Home Tecnología Probé la función de análisis de video de Gemini y los resultados...

Probé la función de análisis de video de Gemini y los resultados fueron predecibles

92
0

La mayoría de las actualizaciones de Google a Gemini no me destacan. Todavía tengo que ver una mejora significativa en su tasa de alucinación, y su capacidad para resumir las noticias y el clima deja mucho que desear. Sin embargo, una actualización reciente que agregó capacidades de análisis de video a Gemini me llamó la atención como una herramienta que podría usar regularmente.

El análisis de video en Géminis se basa en la capacidad existente de la IA para resumir los videos de YouTube. Tomé esta herramienta para una prueba para ver cuán poderoso es y si la usaría en la vida cotidiana.

Relacionado 5 razones por las que no estoy renovando mi suscripción avanzada de Géminis

No me has convencido, Google

¿Qué tan bien funciona el análisis de video de Géminis?

Para las pruebas, seleccioné una variedad de videos de mi rollo de cámara y les hice a Gemini diferentes preguntas cada vez. Dependiendo de lo que pregunte, Gemini analizará el video de manera diferente, por lo que hice las preguntas más relevantes sobre el video.

Prueba 1: Reconocimiento de objetos

Gemini identificó correctamente el tipo de patos en mi video con algunas indicaciones, e incluso logró identificar correctamente dónde se tomó el video, gracias a un signo en segundo plano.

El letrero solo mostró el nombre comercial, pero Gemini logró identificar dónde se grabó el video dentro de los 100 metros. Sin embargo, las pistas en el video (el nombre comercial, los patos de mandarín y el canal) también habrían llevado a un humano a la respuesta correcta en cuestión de minutos.

Prueba 2: Reconocimiento de ubicación

Me impresionó bastante la capacidad de Google para identificar dónde estaba mi video, pero había muchas pistas para ayudarlo. Para mi próxima prueba, utilicé un video de una erupción del volcán Kilauea en Hawai en mayo. Gemini logró identificar correctamente el volcán, pero no pudo identificar la fecha (el video se tomó el 26 de mayo).

Prueba 3: Reconocimiento de ubicación

Al igual que con las otras funciones de análisis de Gemini, debe hacerle la pregunta correcta para obtener la respuesta correcta. Este video que tomé de un pequeño desfile en Karneval en Colonia el año pasado se quedó con Géminis Stump.

No pudo responderme cuando pregunté a dónde se tomó el video, pero logró identificar al país con más información. Curiosamente, este aviso reveló que reconoció que el video era de un desfile de Karneval, pero no pudo identificar la ciudad.

Probé nuevamente a Gemini usando un video del desfile principal de Karneval (que contenía significativamente más pistas visuales), pero aún no pudo identificar que el video se tomó en Colonia a pesar de la cantidad de letreros de calles, frentes de tiendas y trajes karneval que se muestran en el video.

Prueba 3: Reconocimiento de audio

Estaba personalmente interesado en el reconocimiento de audio de Gemini. Identificar canciones que se están reproduciendo actualmente es útil, pero recoger una canción en el fondo de un viejo video es aún más útil para mí. Desafortunadamente, los resultados de Géminis aquí fueron irregulares en el mejor de los casos. Estos son algunos de mis resultados:

Identificó incorrectamente una grabación de 22 segundos de ‘Solid Rock’ por Dire Straits como ‘I Know Alone’ de Haim. Identificó incorrectamente una grabación de 15 segundos de ‘Surf with the Alien’ de Joe Satriani como ‘Can’t Stop’ por los Red Hot Chili Peppers. Identificó correctamente una grabación de 57 segundos de ‘Like A Rolling Stone’ de Bob Dylan. También identificó la canción de una grabación de 11 segundos. Identificó incorrectamente una grabación de 11 segundos de ‘Wildflowers’ de Tom Petty como ‘You Pertenieft to Me’ por los Dupres.

Probé Gemini más veces con diferentes longitudes de videos. Su precisión se correlacionó positivamente con la longitud de la grabación, pero lo que me sorprendió fue lo incorrecto que era.

Le recomiendo que compare las pistas anteriores para ver cuán diferentes son de la realidad. Honestamente, Géminis, ¿cómo suena Tom Petty como los Dupres?

Prueba 4: Explicando lo que sucede en un video

Uno de los usos más prácticos de Géminis es explicar qué sucede en un video si no tiene tiempo para verlo usted mismo. Usé uno de mis videos favoritos, un clip de los gatos de mi amigo peleando. Géminis tenía una versión fascinante de este clip.

Si bien puedes ver claramente el ataque del gato blanco y negro y luego perseguir al gato negro, Gemini concluyó que los gatos comenzaron a luchar (especialmente usando la voz pasiva aquí, aunque claramente había un agresor), luego el gato negro persiguió al gato negro y negro.

La toma de Gemini aquí es engañosa y dejaría al usuario una comprensión completamente incorrecta de la situación.

Sin embargo, una pregunta de seguimiento llevó a Gemini a identificar correctamente al agresor en el video. Este es un ejemplo divertido que involucra una interacción inofensiva entre los gatos, pero es un gran ejemplo de cómo Géminis puede engañar a los usuarios. ¿Qué pasa si usabas Gemini para analizar un video de personas que pelean?

Relacionado 6 cosas que no tenía idea de que Géminis podía hacer

Google Gemini se volvió aún más útil para mí

El análisis de video de Gemini es tan poco confiable como el resto de los servicios de la IA

La primera prueba que hice sobre el análisis de video de Géminis fue la erupción del volcán Kilauea. Esto me impresionó, pero en la mayoría de mis pruebas posteriores, Gemini no pudo entregar. Necesitaba datos duros como letreros para identificar con precisión las ubicaciones, y su reconocimiento de canciones es inferior a la herramienta de búsqueda de canciones de Google (que también se incluye en la aplicación Gemini).

Encontré que la prueba más interesante fue Gemini analizando la pelea de gatos, ya que sacó las conclusiones equivocadas del video a pesar de la evidencia de video clara. Me las arreglé para analizar correctamente el video después de múltiples indicaciones, pero esto tardó más que ver el video. En conclusión, me apegaré a mirar y analizar videos yo mismo y enviar a Gemini nuevamente.

Fuente de noticias