La News/Media Alliance ha presentado un Libro Blanco acompañado de un análisis técnico y comentarios, donde se pone de manifiesto la utilización extensiva y no autorizada de contenido editorial por parte de desarrolladores de tecnologías de inteligencia artificial generativa (IAG).
De hecho, el estudio concluye que, por ejemplo, en el caso de Google, las noticias que elaboran los medios son la tercera fuente en importancia de la que se nutren para sus LLM (Large Language Model o Modelo de Lenguaje de Gran Envergadura en español), que requiere ser entrenado con enormes conjuntos de datos textuales para aprender patrones de lenguaje, gramática, y contexto o conocimiento del mundo.
Los informes detallan la repercusión que tal uso indebido puede tener sobre la sostenibilidad y la disponibilidad de contenido original de calidad, así como sus implicaciones legales.
Los sistemas de IAG se han desarrollado replicando en grandes cantidades el material publicado por los medios de comunicación, en su mayoría sin la debida autorización ni la correspondiente compensación, dando lugar a nuevos productos y servicios que compiten directamente con los editores asociados.
A pesar de reconocer el potencial beneficioso de los modelos y aplicaciones de IAG en diferentes facetas de la vida cotidiana, y de apoyar su desarrollo bajo principios éticos, la Alliance enfatiza que este avance no debe realizarse a costa de los editores y periodistas que dedican esfuerzos notables para generar material que informa, protege y entretiene a la comunidad, a la vez que supervisa la actuación de los funcionarios públicos y otros agentes decisores.
La Alliance y sus afiliados se muestran dispuestos a colaborar con los desarrolladores de IAG para promover el crecimiento de estas tecnologías de manera responsable y sostenible.
De forma complementaria, el análisis técnico expone en qué medida los desarrolladores de IAG dependen del contenido periodístico de calidad para potenciar sus modelos. Entre los hallazgos del informe, se destaca:
- La apropiación y uso por parte de los desarrolladores de IAG de contenidos de noticias, revistas y medios digitales para adiestrar modelos de lenguaje de gran envergadura (LLM).
- La prevalencia significativa de contenido editorial en los conjuntos de datos curados que sustentan los LLM, superando por un factor de más de 5 a casi 100 la representación de dicho contenido frente a colecciones genéricas de la web recopiladas por Common Crawl.
- Otros estudios indican que las noticias y medios digitales figuran como la tercera fuente más utilizada en el conjunto de entrenamiento C4 de Google, empleado para desarrollar productos basados en IAG de Google como Bard. La mitad de los diez principales sitios representados en dicho conjunto son medios de comunicación.
- Los LLM replican y utilizan contenido editorial en sus respuestas, pudiendo regenerar el contenido con el que fueron entrenados, lo cual demuestra la capacidad de estos modelos para retener y memorizar el contenido expresivo de las obras utilizadas en su entrenamiento.
Danielle Coffey, presidenta y CEO de la Alliance, expuso: «Nuestras investigaciones y análisis evidencian que las compañías y desarrolladores de IA no solo incurren en la copia no autorizada del contenido de nuestros miembros para adiestrar sus productos, sino que hacen uso extensivo del mismo, en mayor medida que otras fuentes. Esto reconoce implícitamente el valor singular de nuestro trabajo, pero la mayoría de estos desarrolladores no han establecido acuerdos de licencia adecuados ni han compensado a los editores por el uso de su contenido. La disminución de contenidos de alta calidad generados por humanos no solo daña a los editores, sino que amenaza la viabilidad de los propios modelos de IAG y la disponibilidad de información fiable y digna de confianza».
Recomendaciones para los políticos
El Libro Blanco y los comentarios presentados proponen diversas recomendaciones para los responsables políticos, entre ellas, el reconocimiento de que el uso no autorizado del contenido expresivo de los editores para el entrenamiento y desarrollo comercial de IAG puede competir y perjudicar a los negocios editoriales de una manera que infringe el derecho de autor; la creación de obligaciones de transparencia que exijan la divulgación del uso de contenido protegido por derechos de autor en el entrenamiento y desarrollo de IAG; y la implementación de mecanismos de compensación para los editores por dicho uso.
La Alliance urge a una acción regulatoria que salvaguarde los intereses de los creadores de contenido original y que promueva una colaboración equitativa entre los editores y las empresas tecnológicas en el campo emergente de la IAG.
Más información:
- White Paper: How the pervasive copying of expressive works to train and fuel generative artificial intelligence systems is copyright infringement and not a fair use (PDF)
- Comments of the news (PDF)
Imagen de cabecera: Depositphotos