Descripción general del problema: los métodos existentes de detección de Deepfake se centran principalmente en identificar videos manipulados faciales, la mayoría de los cuales no pueden realizar una inferencia a menos que haya una cara detectada en el video. Crédito: ARXIV (2024). Doi: 10.48550/arxiv.2412.12278
En una era en la que los videos manipulados pueden difundir la desinformación, intimidar a las personas e incitar daños, los investigadores de UC Riverside han creado un nuevo sistema poderoso para exponer estas falsificaciones.
Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática, y el candidato a doctorado Rohit Kundu, tanto de la Facultad de Ingeniería de Marlan y Rosemary Bourns de UCR, se asociaron con los científicos de Google para desarrollar un modelo de inteligencia artificial que detecte la alteración de videos, incluso cuando las manipulaciones van mucho más allá de los swaps y el discurso alterado. El papel es publicado en el servidor de preimpresión ARXIV.
Roy-Chowdhury también es codirector del Instituto de Investigación y Educación de Inteligencia Artificial de la UC Riverside, un nuevo centro de investigación interdisciplinario en UCR.
Su nuevo sistema, llamado Universal Network para identificar videos de manipulación y sintética (unite), detecta falsificaciones al examinar no solo caras sino también marcos de video completos, incluidos fondos y patrones de movimiento. Este análisis lo convierte en una de las primeras herramientas capaces de identificar videos sintéticos o manipulados que no dependen del contenido facial.
“Los profundos han evolucionado”, dijo Kundu. “Ya no se tratan de swaps faciales. La gente ahora está creando videos completamente falsos, desde caras hasta fondos, utilizando modelos generativos poderosos. Nuestro sistema está construido para atrapar todo eso”.
El desarrollo de Unite se produce cuando la generación de texto a video y imagen a video se ha vuelto ampliamente disponible en línea. Estas plataformas de IA permiten a prácticamente cualquier persona fabricar videos altamente convincentes, planteando graves riesgos para las personas, las instituciones y la democracia misma.
“Da miedo cómo se han vuelto estas herramientas accesibles”, dijo Kundu. “Cualquier persona con habilidades moderadas puede pasar por alto los filtros de seguridad y generar videos realistas de figuras públicas que dicen cosas que nunca dijeron”.
Kundu explicó que los detectores anteriores de Deepfake se centraron casi por completo en las señales faciales.
“Si no hay cara en el marco, muchos detectores simplemente no funcionan”, dijo. “Pero la desinformación puede venir en muchas formas. Alterar los antecedentes de una escena puede distorsionar la verdad con la misma facilidad”.
Para abordar esto, Unite utiliza un modelo de aprendizaje profundo basado en transformadores para analizar videoclips. Detecta inconsistencias espaciales y temporales sutiles, las pruebas a menudo perdidas por los sistemas anteriores. El modelo se basa en un marco de IA fundamental conocido como SIGLIP, que extrae características no vinculadas a una persona u objeto específico.
Un nuevo método de entrenamiento, denominado “pérdida de diversidad de atención”, le pide al sistema a monitorear múltiples regiones visuales en cada cuadro, evitando que se enfoque únicamente en las caras.
El resultado es un detector universal capaz de marcar una variedad de falsificaciones, desde swaps faciales simples hasta videos complejos y completamente sintéticos generados sin ningún metraje real.
“Es un modelo que maneja todos estos escenarios”, dijo Kundu. “Eso es lo que lo hace universal”.
Los investigadores presentaron sus hallazgos en la conferencia 2025 sobre visión por computadora y reconocimiento de patrones (CVPR) en Nashville, Tenn. Titulado “Hacia un detector de videos sintéticos universales: desde manipulaciones de cara o de fondo hasta contenido totalmente generado por IA”, su artículo, dirigido por Kundu, escrito la arquitectura y la metodología de entrenamiento de unite de unite.
Los coautores incluyen a los investigadores de Google Hao Xiong, Vishal Mohanty y Athula Balachandra.
La colaboración con Google, donde Kundu internó, proporcionó acceso a conjuntos de datos expansivos y recursos informáticos necesarios para capacitar al modelo en una amplia gama de contenido sintético, incluidos videos generados a partir de texto o imágenes fijas, formatos que a menudo tocan los detectores existentes.
Aunque todavía está en desarrollo, Unite pronto podría desempeñar un papel vital en la defensa de la desinformación de video. Los usuarios potenciales incluyen plataformas de redes sociales, verificadores de hechos y salas de redacción que trabajan para evitar que los videos manipulados se vuelvan virales.
“La gente merece saber si lo que están viendo es real”, dijo Kundu. “Y a medida que la IA mejora en fingir la realidad, tenemos que mejorar para revelar la verdad”.
Más información: Rohit Kundu et al, hacia un detector de videos sintéticos universales: desde manipulaciones de cara o fondo hasta contenido completamente generado por IA, ARXIV (2024). Doi: 10.48550/arxiv.2412.12278
Información en el diario: ARXIV
Proporcionado por la Universidad de California – Riverside
Cita: los científicos desarrollan una herramienta para detectar videos falsos (2025, 25 de julio) Recuperado el 25 de julio de 2025 de https://techxplore.com/news/2025-07-scientists-tool-fake-videos.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








