Repositorios institucionales y plataformas de inteligencia artificial ¿acceso abierto para todo?

Por Gustavo Archuby (11/02/2025)

El acceso abierto a la producción científica ha sido el objetivo principal en la creación y gestión de los repositorios institucionales en nuestro país y la región. Estos espacios digitales inicialmente surgieron como proyectos aislados, mantenidos en general por la iniciativa y el trabajo de los bibliotecarios, sobre todo en el ámbito universitario (De Volder, 2008). Pero desde 2013 se han convertido en una red de repositorios enmarcada en normativas que van desde un alcance local (facultades y universidades) hasta de alcance nacional como la Ley de Repositorios Digitales Institucionales de Acceso Abierto. Estas normativas implican que dispongan de metadatos estandarizados y protocolos de recolección de datos con un fin de colaboración académica pero a la vez facilitan el acceso a toda plataforma que quiera utilizar esos datos con otros fines.

El desarrollo de los modelos de lenguaje a gran escala (LLMs del inglés Large Language Models) y la expansión de las llamadas “plataformas de inteligencia artificial”, cuyo núcleo son estos modelos, introdujo desafíos significativos para los repositorios institucionales. Esto se debe a que las empresas tecnológicas extraen masivamente la información que publican los repositorios para entrenar sus modelos de lenguaje, y dar respuesta desde sus plataformas a los usuarios, utilizando esta información  sin referenciar a sus autores ni mencionar a los repositorios.

Este uso no consentido de los repositorios no solo desvía su propósito original, sino que también ocurre sin una propuesta económica!!!, algo mínimamente esperable de empresas/corporaciones salidas del seno del capitalismo. Como señala Zuckerfeld (2016), esta apropiación cognitiva es parte fundante del modelo capitalista, y esta forma de piratería de conocimiento / información, si no es norma, es una excepción que se repite con regularidad. Sus consecuencias son múltiples: se genera una contradicción con el principio de acceso abierto, ya que los recursos creados para el beneficio de la comunidad académica y la sociedad en su conjunto terminan siendo utilizados con fines comerciales por empresas privadas del exterior, violan la única restricción que dicta la declaración de la Iniciativa de Budapest para el Acceso Abierto, al no generar una referencia a los repositorios como fuente, ni citar a las y los autores al momento de generar las respuestas, por último, está extracción de datos implica una sobrecarga para las infraestructuras locales, los servidores y el ancho de banda, que se ven afectados y muchas veces saturados lo que termina generando un servicio de mala calidad para los usuarios legítimos de los repositorios. Es que estas empresas, además, suelen ignorar restricciones como el archivo robots.txt, diseñado para limitar el acceso automatizado a determinados contenidos, tal como se explica en un foro de la comunidad DSpace (2024), lo que evidencia una explotación indiscriminada de recursos académicos sin respetar los acuerdos establecidos.

Ante este nuevo contexto, a fines de diciembre de 2024 y por iniciativa de la Universidad Nacional de Cuyo y la Facultad de Humanidades y Ciencias de la Educación de la Universidad Nacional de La Plata, se realizó una primera reunión virtual, informal y autoconvocada en la que participaron referentes y responsables de varios repositorios institucionales argentinos, de las universidades de Cuyo, Buenos Aires,  La Plata, Tucumán, Mar del Plata, Luján, Quilmes, Comahue , General Sarmiento, Villa María, Universidad de Ciencias Empresariales y Sociales y del módulo SIU-Bibliotecas.

La reunión tuvo como objetivo hablar sobre la necesidad de proteger y valorizar la producción académica frente a los desafíos planteados por la inteligencia artificial y el acceso abierto. Se discutieron estrategias para equilibrar la accesibilidad de la información con la protección de los derechos de autor y la prevención del uso no autorizado de datos, así como la importancia de desarrollar capacidades propias en IA para la soberanía tecnológica. Los participantes acordaron trabajar en lineamientos y políticas para el uso de material en acceso abierto, y propusieron presentar estas ideas en futuros foros y debates para mejorar la visibilidad y el reconocimiento del conocimiento científico producido por las universidades.

Primera Reunión  IA

Figura 1. Captura de pantalla de la reunión del 20-12-2024

A partir de la reunión, se propuso trabajar en cuatro ejes de trabajo: infraestructura, desarrollo, educación y políticas. Se abordó la necesidad de reevaluar cómo las instituciones académicas manejan sus recursos textuales en la era de la inteligencia artificial y las plataformas digitales, y la necesidad de contar con una plataforma soberana, para proteger la producción académica frente al proceso de plataformización por entidades externas. También se planteó la necesidad de regular el acceso a estos recursos primarios y evaluar las capacidades de los modelos de lenguaje, con el objetivo de mantener el control y el valor de la producción académica para el contexto local.

En palabras de Diego Ferreyra presente en la reunión:

“Es fundamental entender que el acceso abierto no implica una cesión ilimitada de los recursos académicos a cualquier tipo de usuario, especialmente a aquellos que buscan beneficiarse económicamente sin contribuir al desarrollo de la comunidad académica. Proteger los repositorios institucionales no solo significa preservar su infraestructura tecnológica, sino también salvaguardar el trabajo colaborativo y el propósito social que los sustenta. Ante esta situación, se deben buscar alternativas, como por ejemplo, la creación de plataformas, propias, federadas integradas por instituciones académicas bajo, por ejemplo en la forma de un consorcio. Estas plataformas permitirían un acceso controlado y seguro a la producción científica, priorizando a los usuarios para las que estas fueron desarrolladas, podrían establecerse mecanismos de autenticación robustos y acuerdos de uso que limiten el acceso de plataformas tecnológicas que buscan explotar estos recursos con fines comerciales. La implementación de restricciones técnicas y legales son medidas clave para proteger la integridad de los repositorios y garantizar su sostenibilidad.” (Reunión sobre Repositorios Institucionales e Inteligencia Artificial, 2024).

Los videos de la reunión se pueden ver en el Portal REA de la UNCuyo.

Paralelamente, existe la posibilidad de incorporar a los repositorios nuevas herramientas, como los Grandes Modelos de Lenguaje (LLMs), pero con objetivos afines a un contexto académico y no comercial, ya que como dice Zukerfeld (2024): “Mientras el afán de lucro predomine como el motor que guía la creación e implementación de redes de información en general, y en particular de las IA, resultaría extraño esperar que los aspectos éticos (en cualquier sentido de la noción de ética) se vean priorizados”. Estos entornos estarían gestionados éticamente y alineados con los principios de acceso abierto y colaboración académica, promoviendo de esta manera la construcción de comunidades de generación de conocimiento. Evidencia de que esto es posible es el prototipo “Chatea con Memoria Académica” presentado en las 22vas Jornadas de Bibliotecas Digitales Universitarias. Mendoza 8 y 9 de noviembre 2024, plataforma que está siendo desarrollada en la Facultad de Humanidades y Ciencias de la Educación de la UNLP. La misma permite interactuar con el repositorio institucional por medio de un chatbot, al que se le pueden realizar preguntas sobre el contenido del repositorio, solicitar resúmenes, etc. citando, en las respuestas, los documentos y las/los autores utilizados para generarlas.

Chatbot Memoria

Figura 2. Captura de pantalla de “Chateá con Memoria Académica”

En conclusión, en este contexto es importante a nivel nacional revisar las reglamentaciones de acceso a los repositorios para detener la apropiación masiva de los documentos por parte de las empresas tecnológicas extranjeras con fines comerciales. Asimismo, es necesario crear plataformas federadas e implementar diferentes métodos de acceso puesto que representan pasos fundamentales para resguardar el trabajo académico y garantizar que los beneficios del acceso abierto se mantengan dentro de los objetivos para los cuales fueron pensados. Respetar los acuerdos suscriptos al adherir a la “Iniciativa de Acceso Abierto” implica resguardar el trabajo de las y los autores, que cedieron sus documentos bajo las condiciones antes mencionadas. Solo mediante estrategias colaborativas y una gestión responsable será posible generar acceso a la producción junto con la protección de los recursos institucionales. Estas acciones permitirán que los repositorios continúen siendo espacios de difusión y preservación del conocimiento a la vez que generen una comunidad de usuarios que sirva de nexo entre investigadores, potenciando así el fin con que fueron creados.

Referencias bibliográficas

De Volder, C. (2008). Los repositorios de acceso abierto en Argentina: situación actual. Información, Cultura y Sociedad, 19, 79-98. Recuperado de http://revistascientificas.filo.uba.ar/index.php/ICS/article/view/833

Iniciativa de Acceso Abierto de Budapest. (2002). Recuperado de https://www.budapestopenaccessinitiative.org/read/ 

LYRASIS Wiki (2024 Nov 4) Aggressive AI Harvesting of Digital Resources—Community Groups— Recuperado 17 de enero de 2025, de https://wiki.lyrasis.org/display/cmtygp/Aggressive+AI+Harvesting+of+Digital+Resources

Ley 26899: Creación de Repositorios Digitales Institucionales de Acceso Abierto, Propios o Compartidos, 26899 (2013). https://repositoriosdigitales.mincyt.gob.ar/files/Boletin_Oficial_Ley_26899.pdf 

Reunión sobre Repositorios Institucionales e Inteligencia Artificial (2024 Dic 20). Aporte 2 Diego Ferreyra. [Video recording]. https://www.youtube.com/watch?v=SYUzK4INBHo&t=3741s 

Zukerfeld, M. (2016). La piratería des-comunal: Los orígenes de la acumulación capitalista de conocimientos. https://ri.conicet.gov.ar/handle/11336/107100

Zukerfeld, M. (2024). La implícita teoría social de Harari y cinco tesis sobre la IA: Reseña crítica de Nexus: Una breve historia de las redes de información desde la edad de piedra hasta la IA. Hipertextos, 12(22), e22. https://doi.org/10.24215/23143924e094

¿Cómo citar este trabajo?

Archuby, G. (2024, febrero 11).  Repositorios institucionales y plataformas de inteligencia artificial ¿acceso abierto para todo? Acceso Abierto en movimiento. http://accesoabierto.fahce.unlp.edu.ar/entradas/repositorios-institucionales-y-plataformas-de-inteligencia-artificial-acceso-abierto-para-todo/