Los libros descansan en estantes en Langdell Hall, que alberga la Biblioteca de la Facultad de Derecho de Harvard, miércoles 26 de febrero de 2025, en Cambridge, Mass. Crédito: AP Photo/Charles Krupa
Todo lo que se dijo en Internet fue solo el comienzo de enseñar inteligencia artificial sobre la humanidad. Las compañías tecnológicas ahora están aprovechando un repositorio de conocimiento más antiguo: las pilas de la biblioteca.
Casi un millón de libros publicados ya en el siglo XV, y en 254 idiomas, son parte de una colección de la Universidad de Harvard que se publicará a los investigadores de IA el jueves. También se lanzarán pronto tocones de viejos periódicos y documentos gubernamentales en poder de la Biblioteca Pública de Boston.
Abrir las bóvedas a los tomos centenarios podría ser una bonanza de datos para las compañías tecnológicas que luchan contra las demandas por novelistas vivos, artistas visuales y otros cuyas obras creativas han sido recogidas sin su consentimiento para capacitar a los chatbots de IA.
“Es una decisión prudente comenzar con datos de dominio público porque eso es menos controvertido en este momento que el contenido que todavía está bajo los derechos de autor”, dijo Burton Davis, un asesor general adjunto de Microsoft.
Davis dijo que las bibliotecas también poseen “cantidades significativas de datos culturales, históricos y de idiomas interesantes” que faltan en las últimas décadas de comentarios en línea de los que AI Chatbots ha aprendido principalmente.
Con el apoyo de “regalos sin restricciones” del fabricante de Microsoft y Chatgpt OpenAi, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas de todo el mundo sobre cómo hacer que sus colecciones históricas estén listas de una manera que también beneficie a las bibliotecas y las comunidades a las que sirven.
“Estamos tratando de trasladar parte del poder de este momento actual de IA a estas instituciones”, dijo Aristana Scourtas, quien administra la investigación en el Laboratorio de Innovación de la Biblioteca de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los administradores de los datos y los administradores de la información”.
Un ciclista caminando por Langdell Hall, The Harvard Law Library, en el campus de la Facultad de Derecho de Harvard en la Universidad de Harvard, 1 de agosto de 2005, en Cambridge, Mass. Crédito: AP Photo/Charles Krupa, Archivo
El conjunto de datos recientemente lanzado de Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas escaneadas de papel. Uno de los trabajos anteriores es de la década de 1400, los pensamientos escritos a mano de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, en temas como la literatura, la filosofía, el derecho y la agricultura, todo lo que se conserva meticulosamente y organizado por generaciones de bibliotecarios.
Promete ser una bendición para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.
“Gran parte de los datos que se han utilizado en la capacitación de IA no provienen de fuentes originales”, dijo el director ejecutivo de la iniciativa Data, Greg Leppert, quien también es tecnólogo jefe del Centro Berkman Klein para Internet & Society de Harvard. Esta colección de libros se remonta a “todo el camino a la copia física que fue escaneada por las instituciones que realmente recopilaron esos artículos”, dijo.
Antes de que Chatgpt provocara un frenesí comercial de IA, la mayoría de los investigadores de IA no pensaban mucho en la procedencia de los pasajes de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de repositorios profundos de libros pirateados. Solo necesitaban muchos de lo que los científicos informáticos llaman tokens, unidades de datos, cada una de las cuales puede representar una palabra.
La nueva colección de entrenamiento de IA de Harvard tiene aproximadamente 242 mil millones de tokens, una cantidad difícil para los humanos a Fathom, pero todavía es solo una caída de lo que se está alimentando en los sistemas de IA más avanzados. La empresa matriz de Facebook, Meta, por ejemplo, ha dicho que la última versión de su modelo de lenguaje grande AI fue capacitado en más de 30 billones de tokens extraídos de texto, imágenes y videos.
Meta también está luchando contra una demanda de la comediante Sarah Silverman y otros autores publicados que acusan a la compañía de robar sus libros de “Bibliotecas Sombras” de obras pirateadas.
Ahora, con algunas reservas, las bibliotecas reales están de pie.
Greg Leppert, director ejecutivo de la Iniciativa de Datos Institucionales, posa en Langdell Hall, que alberga la Biblioteca de la Facultad de Derecho de Harvard, miércoles 26 de febrero de 2025, en Cambridge, Massachusetts. Crédito: AP Photo/Charles Krupa
Openai, que también está luchando contra una serie de demandas por derechos de autor, donó $ 50 millones este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de la Universidad de Oxford, que está digitalizando textos raros y utilizando IA para ayudar a transcribirlos.
Cuando la compañía se comunicó por primera vez con la Biblioteca Pública de Boston, una de las más grandes de los EE. UU., La biblioteca dejó en claro que cualquier información que digitalizara sería para todos, dijo Jessica Chapel, su jefe de servicios digitales y en línea.
“Openai tenía este interés en cantidades masivas de datos de capacitación. Tenemos interés en cantidades masivas de objetos digitales. Por lo tanto, este es solo un caso que las cosas se están alineando”, dijo Chapel.
La digitalización es costosa. Ha sido un trabajo minucioso, por ejemplo, para que la biblioteca de Boston escanee y seleccione docenas de periódicos en francés en Nueva Inglaterra que fueron ampliamente leídos a fines del siglo XIX y principios del siglo XX por comunidades de inmigrantes canadienses de Quebec. Ahora que dicho texto es utilizado como datos de capacitación, ayuda a los proyectos de bancarrojo que los bibliotecarios quieren hacer de todos modos.
“Hemos sido muy claros que, ‘Hola, somos una biblioteca pública'”, dijo Chapel. “Nuestras colecciones se llevan a cabo para uso público, y cualquier cosa que digitalizamos como parte de este proyecto se hará pública”.
La colección de Harvard ya fue digitalizada a partir de 2006 para otro gigante tecnológico, Google, en su controvertido proyecto para crear una biblioteca en línea de más de 20 millones de libros.
Google pasó años superando los desafíos legales de los autores a su biblioteca de libros en línea, que incluía muchas obras más nuevas y con derechos de autor. Finalmente se resolvió en 2016 cuando la Corte Suprema de EE. UU. Dejó reposar las decisiones de los tribunales inferiores que rechazaron las reclamaciones de infracción de derechos de autor.
Greg Leppert, director ejecutivo de la Iniciativa de Datos Institucionales, posa en Langdell Hall, que alberga la Biblioteca de la Facultad de Derecho de Harvard, miércoles 26 de febrero de 2025, en Cambridge, Massachusetts. Crédito: AP Photo/Charles Krupa
Ahora, por primera vez, Google ha trabajado con Harvard para recuperar volúmenes de dominio público de Google Books y aclarar el camino para su lanzamiento a los desarrolladores de IA. Las protecciones de derechos de autor en los EE. UU. Típicamente duran 95 años, y más largas para grabaciones de sonido.
Qué útil será todo esto para la próxima generación de herramientas de IA queda por ver a medida que los datos se comparten el jueves en la plataforma de abrazos de abrazos, que aloja conjuntos de datos y modelos de IA de código abierto que cualquiera puede descargar.
La colección de libros es más lingüísticamente diversa que las fuentes de datos de IA típicas. Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos aún dominan, particularmente alemán, francés, italiano, español y latín.
Una colección de libros inmersa en el pensamiento del siglo XIX también podría ser “inmensamente crítico” para los esfuerzos de la industria tecnológica para construir agentes de IA que puedan planificar y razonar, así como a los humanos, dijo Leppert.
“En una universidad, tienes mucha pedagogía sobre lo que significa razonar”, dijo Leppert. “Tiene mucha información científica sobre cómo ejecutar procesos y cómo ejecutar análisis”.
Al mismo tiempo, también hay muchos datos obsoletos, desde teorías científicas y médicas desacreditadas hasta narrativas racistas.
“Cuando se trata de un conjunto de datos tan grande, hay algunos problemas difíciles de contenido y lenguaje dañinos”, dijo Kristi Mukk, coordinadora del Laboratorio de Innovación de la Biblioteca de Harvard que dijo que la iniciativa está tratando de proporcionar orientación sobre la mitigación de los riesgos de usar los datos, para “ayudarlos a tomar sus propias decisiones informadas y usar la respuesta de respuesta”.
© 2025 The Associated Press. Reservados todos los derechos. Este material no puede publicarse, transmitir, reescribirse o redistribirse sin permiso.
Cita: los chatbots de IA necesitan más libros para aprender. Estas bibliotecas están abriendo sus pilas (2025, 12 de junio) recuperadas el 12 de junio de 2025 de https://techxplore.com/news/2025-06-ai-chatbots-libraries-stacks.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








