Crédito: Dominio público de Pixabay/CC0
Los datos sintéticos se generan artificialmente por algoritmos para imitar las propiedades estadísticas de los datos reales, sin contener ninguna información de fuentes del mundo real. Si bien los números concretos son difíciles de precisar, algunas estimaciones sugieren que más del 60% de los datos utilizados para aplicaciones de IA en 2024 eran sintéticos, y se espera que esta cifra crezca en todas las industrias.
Debido a que los datos sintéticos no contienen información del mundo real, tienen la promesa de salvaguardar la privacidad al tiempo que reducen el costo y aumenta la velocidad a la que se desarrollan nuevos modelos de IA. Pero el uso de datos sintéticos requiere una evaluación cuidadosa, planificación y controles y equilibrios para evitar la pérdida de rendimiento cuando se implementan los modelos de IA.
Para desempacar algunos pros y contras del uso de datos sintéticos, MIT News habló con Kalyan Veeramachaneni, un principal científico de investigación en el Laboratorio de Información y Sistemas de Decisión y Cofundador de Datacebo cuya plataforma de núcleo abierto, la bóveda de datos sintéticosAyuda a los usuarios a generar y probar datos sintéticos.
¿Cómo se crean los datos sintéticos?
Los datos sintéticos se generan algorítmicamente, pero no provienen de una situación real. Su valor radica en su similitud estadística con datos reales. Si estamos hablando del lenguaje, por ejemplo, los datos sintéticos parecen mucho como si un humano hubiera escrito esas oraciones. Si bien los investigadores han creado datos sintéticos durante mucho tiempo, lo que ha cambiado en los últimos años es nuestra capacidad de construir modelos generativos a partir de datos y usarlos para crear datos sintéticos realistas. Podemos tomar un poco de datos reales y construir un modelo generativo a partir de eso, que podemos usar para crear tantos datos sintéticos como queramos. Además, el modelo crea datos sintéticos de una manera que captura todas las reglas subyacentes y los patrones infinitos que existen en los datos reales.
Esencialmente hay cuatro modalidades de datos diferentes: lenguaje, video o imágenes, audio y datos tabulares. Los cuatro tienen formas ligeramente diferentes de construir los modelos generativos para crear datos sintéticos. Un LLM, por ejemplo, no es más que un modelo generativo del que está probando datos sintéticos cuando le hace una pregunta.
Muchos datos de idiomas e imágenes están disponibles públicamente en Internet. Pero los datos tabulares, que son los datos recopilados cuando interactuamos con los sistemas físicos y sociales, a menudo se bloquean detrás de los firewalls empresariales. Gran parte es sensible o privada, como las transacciones de los clientes almacenadas por un banco. Para este tipo de datos, plataformas como la bóveda de datos sintéticos proporcionan software que puede usarse para crear modelos generativos. Esos modelos luego crean datos sintéticos que preservan la privacidad del cliente y se pueden compartir más ampliamente.
Una cosa poderosa de este enfoque de modelado generativo para sintetizar datos es que las empresas ahora pueden construir un modelo local personalizado para sus propios datos. La IA generativa automatiza lo que solía ser un proceso manual.
¿Cuáles son algunos beneficios del uso de datos sintéticos y para qué casos de uso y aplicaciones son particularmente adecuados?
Una aplicación fundamental que ha crecido enormemente en la última década es utilizar datos sintéticos para probar aplicaciones de software. Hay una lógica basada en datos detrás de muchas aplicaciones de software, por lo que necesita datos para probar ese software y su funcionalidad. En el pasado, las personas han recurrido a generar datos manualmente, pero ahora podemos usar modelos generativos para crear tantos datos como necesitemos.
Los usuarios también pueden crear datos específicos para las pruebas de aplicaciones. Digamos que trabajo para una empresa de comercio electrónico. Puedo generar datos sintéticos que imitan a los clientes reales que viven en Ohio e hicieron transacciones relacionadas con un producto en particular en febrero o marzo.
Debido a que los datos sintéticos no se extraen de situaciones reales, también son preservadores de la privacidad. Uno de los mayores problemas en las pruebas de software ha sido el acceso a datos reales confidenciales para probar el software en entornos de no producción, debido a problemas de privacidad. Otro beneficio inmediato es en las pruebas de rendimiento. Puede crear mil millones de transacciones a partir de un modelo generativo y probar qué tan rápido puede procesarlas su sistema.
Otra aplicación donde los datos sintéticos tienen mucha promesa es en los modelos de aprendizaje de máquinas de entrenamiento. A veces, queremos que un modelo de IA nos ayude a predecir un evento que es menos frecuente. Un banco puede querer usar un modelo de IA para predecir transacciones fraudulentas, pero puede haber muy pocos ejemplos reales para capacitar a un modelo que pueda identificar el fraude con precisión. Los datos sintéticos proporcionan un aumento de datos: ejemplos de datos adicionales que son similares a los datos reales. Estos pueden mejorar significativamente la precisión de los modelos de IA.
Además, a veces los usuarios no tienen tiempo o los recursos financieros para recopilar todos los datos. Por ejemplo, la recopilación de datos sobre la intención del cliente requeriría realizar muchas encuestas. Si termina con datos limitados y luego intenta entrenar un modelo, no funcionará bien. Puede aumentar agregando datos sintéticos para entrenar mejor esos modelos.
¿Cuáles son algunos de los riesgos o posibles dificultades del uso de datos sintéticos, y hay pasos que los usuarios pueden tomar para prevenir o mitigar esos problemas?
Una de las preguntas más importantes que las personas a menudo tienen en mente es, si los datos se crean sintéticamente, ¿por qué debería confiar en ellos? Determinar si puede confiar en los datos a menudo se reduce a evaluar el sistema general donde los está utilizando.
Hay muchos aspectos de los datos sintéticos que hemos podido evaluar durante mucho tiempo. Por ejemplo, existen métodos existentes para medir qué tan cerca están los datos sintéticos a los datos reales, y podemos medir su calidad y si conservan la privacidad. Pero hay otras consideraciones importantes si está utilizando esos datos sintéticos para entrenar un modelo de aprendizaje automático para un nuevo caso de uso. ¿Cómo sabría que los datos conducirán a modelos que aún obtienen conclusiones válidas?
Están surgiendo nuevas métricas de eficacia, y el énfasis está ahora en la eficacia para una tarea en particular. Realmente debe profundizar en su flujo de trabajo para garantizar que los datos sintéticos que agregan al sistema aún le permitan sacar conclusiones válidas. Eso es algo que debe hacerse cuidadosamente sobre una aplicación por aplicación.
El sesgo también puede ser un problema. Dado que se crea a partir de una pequeña cantidad de datos reales, el mismo sesgo que existe en los datos reales puede transferirse a los datos sintéticos. Al igual que con los datos reales, deberá asegurarse deliberadamente de que el sesgo se elimine a través de diferentes técnicas de muestreo, que pueden crear conjuntos de datos equilibrados. Se necesita una planificación cuidadosa, pero puede calibrar la generación de datos para evitar la proliferación de sesgo.
Para ayudar con el proceso de evaluación, nuestro grupo creó el Biblioteca de métricas de datos sintéticos. Nos preocupa que las personas usaran datos sintéticos en su entorno y que darían diferentes conclusiones en el mundo real. Creamos una biblioteca de métricas y evaluación para garantizar controles y equilibrios. La comunidad de aprendizaje automático ha enfrentado muchos desafíos para garantizar que los modelos puedan generalizarse a nuevas situaciones. El uso de datos sintéticos agrega una dimensión completamente nueva a ese problema.
Espero que los viejos sistemas de trabajo con datos, ya sea para construir aplicaciones de software, responder preguntas analíticas o modelos de trenes, cambiar drásticamente a medida que nos volvemos más sofisticados al construir estos modelos generativos. Muchas cosas que nunca hemos podido hacer antes serán posibles ahora.
Proporcionado por el Instituto de Tecnología de Massachusetts
Cita: 3 Preguntas: Los pros y los contras de los datos sintéticos en IA (2025, 3 de septiembre) recuperaron el 3 de septiembre de 2025 de https://techxplore.com/news/2025-09-pros-cons-synthetic-ai.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









