: Nuestra evaluación de calidad y utilización guiada por la calidad de datos sintéticos inalámbricos. Los modelos generativos producen datos sintéticos de condiciones para complementar la cantidad de datos para aplicaciones inalámbricas. En comparación con la utilización previa de la calidad-obligación de la calidad utilizando todos los datos sintéticos con las condiciones como etiquetas, evaluamos la calidad de los datos sintéticos, revelamos su limitación de afinidad y proponemos un esquema de utilización guiado por la calidad que incorpora muestras sintéticas filtradas con pseudo-etiquetas asignadas para una mejor calidad de datos y rendimiento de tareas. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2506.23174
Para capacitar a los modelos de inteligencia artificial (IA), los investigadores necesitan buenos datos y muchos. Sin embargo, la mayoría de los datos del mundo real ya se han utilizado, lo que lleva a los científicos a generar datos sintéticos. Si bien los datos generados ayudan a resolver el problema de la cantidad, puede que no siempre tenga buena calidad, y se ha pasado por alto la evaluación de su calidad.
Wei Gao, profesor asociado de ingeniería eléctrica e informática en la Facultad de Ingeniería de la Universidad de Pittsburgh Swanson, ha colaborado con investigadores de la Universidad de Pekín para desarrollar métricas analíticas para evaluar cualitativamente la calidad de los datos inalámbricos sintéticos. Los investigadores han creado un marco novedoso que mejora significativamente la capacitación basada en tareas de los modelos de IA utilizando datos inalámbricos sintéticos.
Su trabajo es detallado En el servidor de preimpresión ARXIV en un estudio titulado “Los datos pueden hablar por sí mismos: la utilización guiada por la calidad de los datos sintéticos inalámbricos”, que recibió el premio al mejor documento en junio en el Conferencia internacional de Mobisys 2025 sobre sistemas móviles, aplicaciones y servicios.
Evaluar la afinidad y la diversidad
“Los datos sintéticos son vitales para capacitar a los modelos de IA, pero para modalidades como imágenes, video o sonido, y especialmente señales inalámbricas, generar buenos datos puede ser difícil”, dijo Gao, quien también dirige el Laboratorio de Sistemas Inteligentes de Pitt.
GAO ha desarrollado métricas para cuantificar la afinidad y la diversidad, cualidades esenciales para los datos sintéticos que se utilizarán para capacitar de manera efectiva modelos de IA.
“Los datos generados no deberían ser aleatorios”, dijo Gao. “Tome rostros humanos. Si está entrenando un modelo de IA para identificar caras humanas, debe asegurarse de que las imágenes de caras representen caras reales. No pueden tener tres ojos o dos narices. Deben tener afinidad”.
Las imágenes también necesitan diversidad. Entrenar un modelo de IA en un millón de imágenes de una cara idéntica no logrará mucho. Si bien las caras deben tener afinidad, también deben ser diferentes, como lo son las caras humanas. Como señaló Gao, “los modelos de IA aprenden de la variación”.
Las diferentes tareas tienen diferentes requisitos para juzgar la afinidad y la diversidad. Reconocer una cara humana específica es diferente a distinguirla de la de un perro o un gato, y cada tarea tiene requisitos de datos únicos. Por lo tanto, al evaluar sistémicamente la calidad de los datos sintéticos, el equipo aplicó un enfoque específico de la tarea.
“Aplicamos nuestro método a las tareas aguas abajo y evaluamos el trabajo existente de sintetizar datos”, dijo Gao. “Descubrimos que la mayoría de los datos sintéticos lograron una buena diversidad, pero algunos tenían problemas que satisfacían la afinidad, especialmente las señales inalámbricas”.
El desafío de los datos inalámbricos sintéticos
Hoy, las señales inalámbricas se utilizan en tecnologías como el monitoreo del hogar y el sueño, los juegos interactivos y la realidad virtual. Las señales de teléfono celular y Wi-Fi, como ondas de radio, golpean objetos y se recuperan hacia su fuente. Estas señales se pueden interpretar para indicar todo, desde patrones de sueño hasta la forma de una persona sentada en un sofá.
Para avanzar en esta tecnología, los investigadores necesitan más datos inalámbricos para entrenar modelos para reconocer los comportamientos humanos en los patrones de señal. Sin embargo, como forma de onda, las señales son difíciles de evaluar para los humanos.
No es como caras humanas, lo que puede definirse claramente. “Nuestra investigación encontró que los datos inalámbricos sintéticos actuales son limitados en su afinidad”, dijo Gao. “Esto lleva a datos mal etiquetados y un rendimiento de la tarea degradado”.
Para mejorar la afinidad en las señales inalámbricas, los investigadores adoptaron un enfoque de aprendizaje semi-supervisado. “Utilizamos una pequeña cantidad de datos sintéticos etiquetados, que se verificó como legítimo”, dijo Gao. “Utilizamos estos datos para enseñar al modelo qué es y no es legítimo”.
Gao y sus colaboradores se desarrollaron SincronizarUn marco que filtra muestras inalámbricas sintéticas con baja afinidad y etiqueta las muestras restantes durante el entrenamiento iterativo de un modelo.
“Descubrimos que nuestro sistema mejora el rendimiento en un 4,3%, mientras que un uso no selectivo de datos inalámbricos sintéticos degrada el rendimiento en un 13,4%”, señaló Gao.
Esta investigación toma un primer paso importante para garantizar no solo un flujo interminable de datos, sino también de datos de calidad que los científicos pueden usar para capacitar a modelos de IA más sofisticados.
Más información: Chen Gong et al, los datos pueden hablar por sí mismos: utilización guiada por la calidad de datos sintéticos inalámbricos, ARXIV (2025). Doi: 10.48550/arxiv.2506.23174
Información en el diario: ARXIV
Proporcionado por la Universidad de Pittsburgh
Cita: Cómo garantizar datos inalámbricos sintéticos de alta calidad cuando los datos del mundo real se secan (2025, 15 de septiembre) Recuperado el 15 de septiembre de 2025 de https://techxplore.com/news/2025-09-high- Quality-Synthetic-Wireless-Real.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








