Home Tecnología La herramienta separa automáticamente los datos de capacitación y prueba para mejorar...

La herramienta separa automáticamente los datos de capacitación y prueba para mejorar la evaluación de la IA

73
0

Flujo de trabajo esquemático del correo de datos. Crédito: Nature Communications (2025). Doi: 10.1038/s41467-025-58606-8

Se ha desarrollado una nueva herramienta para evaluar mejor el rendimiento de los modelos de IA. Fue desarrollado por bioinformáticos de Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) y el Instituto Helmholtz para la Investigación Farmacéutica Saarland (HIPS).

“DataSail” clasifica automáticamente los datos de capacitación y prueba para que difieran lo más posible entre sí, lo que permite la evaluación de si los modelos de IA funcionan de manera confiable con datos diferentes. Los investigadores han presentado su enfoque en la revista Nature Communications.

Los modelos de aprendizaje automático están capacitados con grandes cantidades de datos y deben probarse antes del uso práctico. Para esto, los datos primero deben dividirse en un conjunto de entrenamiento más grande y un conjunto de pruebas más pequeño: el primero se usa para que el modelo aprenda, y el segundo se usa para verificar su confiabilidad.

“Solo si los datos se dividen de tal manera que los datos de prueba difieran significativamente de los datos de capacitación se puede determinar si el modelo puede manejar más tarde datos novedosos, los llamados datos fuera de distribución, en la práctica”, explica el profesor Dr. David Blumenthal, bioinformático en el Departamento de Inteligencia Artificial en Ingeniería Biomédica (AIBE) en FAU.

Los modelos de IA a menudo se sobreestiman

Los algoritmos convencionales generalmente no son capaces de esta división de datos optimizado, por lo que el rendimiento de los modelos de IA a menudo se sobreestima. Junto con investigadores de caderas, David Blumenthal ha desarrollado una herramienta que evita tales juicios erróneos y establece nuevos estándares en un área importante de aprendizaje automático. La herramienta, llamada Dataasail, divide automáticamente los conjuntos de datos para que los datos de capacitación y prueba sean lo más diferentes posible.

“DataSail es una herramienta gratuita y puede usarse para todo tipo de datos, no solo en la investigación biológica”, dice Blumenthal. “Los usuarios solo necesitan definir algunos parámetros para sus conjuntos de datos, y Dataasail realiza el resto de manera automática y consistente”.

Visualización de conjuntos de datos unidimensionales y bidimensionales ejemplares. Crédito: Nature Communications (2025). Doi: 10.1038/s41467-025-58606-8

La herramienta también procesa datos de interacción

Dataasail también es la primera herramienta que se puede utilizar para la división automatizada de datos de interacción. Estos datos multidimensionales juegan un papel, por ejemplo, en la investigación de drogas.

“Imagine que desea desarrollar modelos de IA que predecan la interacción entre los medicamentos y las proteínas objetivo”, dice Blumenthal. “Luego, al probar estos modelos, debe evaluar qué tan bien funcionan para las moléculas de fármacos alteradas por un lado y para diferentes proteínas en el otro”.

Además, la herramienta es capaz de considerar las características de clase, como una distribución uniforme de sujetos masculinos y femeninos en los datos de entrenamiento y prueba. Esto evita que la prueba de un modelo produzca resultados más poco realistas para un género que para el otro.

El plan es desarrollar aún más la herramienta en los próximos años para reducir el tiempo de ejecución de los algoritmos y preparar datos aún más precisamente para varios escenarios prácticos.

Más información: Roman Joeres et al, división de datos para evitar la fuga de información con un correo de datos, Nature Communications (2025). Doi: 10.1038/s41467-025-58606-8

Proporcionado por la Universidad Friedrich -Alexander Erlangen – Nurnberg

Cita: la herramienta separa automáticamente los datos de capacitación y prueba para mejorar la evaluación de IA (2025, 26 de mayo) recuperada el 26 de mayo de 2025 de https://techxplore.com/news/2025-05-tool-automatics-ai.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.