Por Sandra Niemeyer, Leibniz Information Center Technology and Natural Sciences / TIB – Leibniz Information Center for Science and Technology
El conocimiento científico expresado en los artículos se produce como datos legibles por máquina en entornos informáticos durante la fase de análisis de datos del ciclo de vida de la investigación. El conocimiento científico legible por máquina se deposita en un repositorio de datos como datos renacidos del artículo e interlucean con el artículo en metadatos de DOI. Finalmente, para apoyar la reutilización, por ejemplo, para la investigación de síntesis, el conocimiento científico legible por máquina se recopila y organiza en sistemas de agregación, como gráficos de conocimiento. Crédito: datos científicos (2025). Doi: 10.1038/s41597-025-04905-0. https://www.nature.com/articles/s41597-025-04905-0
A pesar de los avances significativos en las tecnologías digitales, los resultados científicos modernos todavía se comunican utilizando métodos anticuados. En casi 400 años, la literatura científica ha progresado de artículos impresos físicamente a PDF, pero estos documentos electrónicos todavía están basados en texto y, por lo tanto, no se pueden legaborar a las máquinas. Esto significa que su computadora no puede interpretar la información que contienen sin asistencia humana.
Con millones de artículos científicos publicados anualmente, la necesidad de recuperación y procesamiento de información asistida por máquina está creciendo rápidamente. La mayoría de los esfuerzos para abordar esta necesidad han intentado capacitar a máquinas para interpretar información basada en texto utilizando enfoques de inteligencia artificial (IA), generalmente con un éxito limitado.
Recientemente, un equipo de investigación del Centro de Información TIB: Leibniz para la Ciencia y la Tecnología propuso abordar el problema con una mentalidad diferente. En lugar de tratar de enseñar a las máquinas nuestro idioma, ¿por qué no producir ciencia en un idioma que ya entienden?
En un artículo publicado en Cientific Data, el equipo presenta artículos renacidos, un enfoque de código abierto que permite a los investigadores producir hallazgos científicos en un formato legible por máquina.
Explicó el Dr. Markus Stocker, primer autor y jefe de infraestructuras de conocimiento del laboratorio en el TIB, “Muchos científicos ya usan herramientas de análisis de datos que producen resultados que las máquinas pueden leer. Pero la forma estándar de publicar estos resultados es organizarlos en un documento PDF que no se puede leer por las máquinas. Esto significa que si alguien quiere reutilizar estos resultados, que es el punto total de publicarlos, primero tienen que extraer y reestructurarlos.
“¿No sería más eficiente si pudiéramos publicar los resultados de una manera que preserva su estructura original? Eso es lo que los artículos renacidos permiten”.
Cómo funcionan los artículos renacidos
El enfoque de los artículos renacidos funciona con herramientas comunes de análisis de datos como R y Python, y permite a los investigadores producir resultados que pueden leer fácilmente tanto humanos como las máquinas. Esto significa que otros investigadores pueden reproducir los análisis ellos mismos e incluso descargar datos de artículos renacidos como archivos Excel o CSV, que también son legibles a las máquinas.
Esto puede parecer trivial, pero las principales alternativas para reutilizar los datos publicados son copiar y pegar valores individuales de los artículos PDF a mano, lo que requiere mucho tiempo y es propenso a errores, o utilizar herramientas basadas en AI, que son inexactas.
Superar la fijación actual en la extracción de información basada en IA ha sido un desafío al explicar cómo funciona el enfoque. Como señaló la coautora e investigadora postdoctoral de TIB, la Dra. Lauren Snyder, “las herramientas de extracción basadas en la IA son un tema candente. Parece que cada campo de la ciencia está buscando formas de usar modelos de idiomas grandes y otros enfoques relacionados con la extracción. Si bien son herramientas poderosas en ciertas situaciones, me pregunto si fijar en ellos no nos está haciendo un discusión general.
“Imagínese renovar su hogar e intentar abordar cada trabajo con herramientas de perforación. Eso no tiene sentido. Me preocupa que esta fijación en la extracción de información nos llevará a las oportunidades de fallas para desarrollar herramientas que puedan abordar ciertas tareas de manera más eficiente. Espero que nuestro trabajo inspire a otros a comenzar a pensar más allá de los enfoques convencionales”.
El Dr. Stocker agregó: “Las personas han estado señalando las ineficiencias de cómo producimos conocimiento científico durante al menos un cuarto de siglo. En ese momento, la extracción basada en AI no ha resuelto el problema y si continuamos con la mentalidad de que la extracción es todo lo que podemos hacer, a mediados de siglo aún podríamos estar luchando con los mismos problemas.
“Si hubiéramos comenzado a usar tecnologías de larga data para garantizar que se produzca el conocimiento científico y sea legible la máquina publicada, hoy tendríamos grandes bases de datos de conocimiento organizado. Si bien podemos llegar un poco tarde al juego, en cualquier momento es un buen momento para comenzar con enfoques disruptivos”.
Más información: Markus Stocker et al, repensando la producción y publicación de expresiones legibles por máquina de los resultados de la investigación, datos científicos (2025). Doi: 10.1038/s41597-025-04905-0. www.nature.com/articles/s41597-025-04905-0
Proporcionado por Leibniz Information Center Technology and Natural Sciences / Tib – Leibniz Information Center for Science and Technology
Cita: ‘Artículos renacidos’: el enfoque simple permite la publicación directa de los hallazgos científicos legibles por máquina (2025, 30 de abril) recuperado el 30 de abril de 2025 de https://techxplore.com/news/2025-04-reborn-articles-simple-approach-enables.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.