lunes 4 de mayo de 2026
InicioACTUALIDADLos bloqueos al Internet Archive se multiplican ante el uso de contenidos...

Los bloqueos al Internet Archive se multiplican ante el uso de contenidos periodísticos para entrenar inteligencia artificial

El acceso a uno de los mayores repositorios de información digital del mundo se está viendo limitado por una reacción coordinada de organizaciones informativas que buscan frenar el uso de sus contenidos en el desarrollo de sistemas de inteligencia artificial, una decisión que afecta directamente a la conservación y trazabilidad del periodismo en internet mientras crece el conflicto legal entre medios y empresas tecnológicas.

Según informa Euronews, al menos 245 organizaciones de noticias en nueve países han comenzado a bloquear los rastreadores del Internet Archive, el sistema automatizado que permite capturar y almacenar páginas web en la conocida Wayback Machine, una base de datos que reúne más de un billón de páginas desde 1996 y que ha servido durante décadas como archivo histórico del contenido publicado en la red.

La decisión responde a la preocupación creciente de los editores por el uso de estos materiales en el entrenamiento de modelos de lenguaje a gran escala, que utilizan textos periodísticos para mejorar la calidad de sus respuestas sin que exista, en la mayoría de los casos, autorización ni compensación económica. Este uso se produce a través de interfaces técnicas que facilitan la descarga masiva de contenidos estructurados, fechados y atribuidos, lo que incrementa su valor para las empresas de inteligencia artificial.

Más de una veintena de grandes medios ya han bloqueado el acceso de ia_archiverbot, el principal rastreador del Internet Archive, mientras que al menos uno de los cuatro sistemas de captura del archivo está restringido por 241 sitios informativos. Una parte significativa de estos bloqueos corresponde a publicaciones vinculadas a USA Today Co, lo que implica la exclusión de cientos de medios locales de este sistema de preservación digital.

Te puede interesar:  España figura entre los países europeos con peores condiciones laborales para los periodistas

El conflicto se produce en paralelo a las demandas interpuestas por varias organizaciones contra compañías como OpenAI o Perplexity por posibles vulneraciones de derechos de autor. En este sentido, Graham James, portavoz de The New York Times, ha señalado que los contenidos del diario almacenados en el archivo están siendo utilizados para competir directamente con el medio sin autorización, lo que, según ha afirmado, supone un uso indebido del trabajo periodístico.

No todos los medios han optado por una restricción total. Algunas cabeceras, como The Guardian, han aplicado medidas parciales que limitan el acceso sin bloquear completamente la indexación, en un intento de equilibrar la protección de sus contenidos con el valor del archivo como herramienta de memoria digital.

Desde el Internet Archive, su director Mark Graham ha defendido que la institución actúa como un intermediario técnico y ha calificado la situación como un “daño colateral” derivado del uso que terceros hacen de los datos archivados. Aun así, la organización ha introducido restricciones en la descarga masiva de contenidos y ha limitado ciertos procesos automatizados para reducir el acceso indiscriminado.

El debate se extiende también al ámbito de los derechos digitales y la preservación histórica. Organizaciones como Fight for the Future han impulsado iniciativas contra estos bloqueos, con el apoyo de periodistas que advierten del riesgo de fragmentar el registro público de la información. La disputa refleja una tensión creciente entre la protección de la propiedad intelectual, el desarrollo de la inteligencia artificial y la conservación del patrimonio informativo en internet.

Artículos relacionados

DEJA UNA RESPUESTA

Please enter your comment!
Please enter your name here

ÚLTIMOS ARTÍCULOS

LO MÁS LEÍDO