Los fundadores de 404 Media. De izquierda a derecha: Emanuel Maiberg, Jason Koebler, Joseph Cox y Samantha Cole. Crédito de la foto: Sharon Attia.

La proliferación de la inteligencia artificial (IA) ha generado una ola de plagios que representa un desafío sin precedentes para el periodismo. Antes, ya se sufría ese robo, pero era de menor volumen y más fácil de detectar, ya que los textos se copiaban sin modificaciones.

Ahora, sitios web alimentados por IA no solo roban sistemáticamente contenidos periodísticos de sus fuentes legítimas, sino que usan también la IA generativa para reescribirlos de manera automatizada y presentarlos como propios, haciendo más complicada la labor de detección del robo.

Este creciente fenómeno no solo constituye un hurto del trabajo de periodistas reales, sino que también plantea serias preguntas sobre la ética y la legalidad en la era digital. Ante la falta de regulaciones efectivas que aborden este problema, mientras no haya actuaciones más decididas por parte de la administración, recae en los medios de comunicación buscar soluciones para defender su propiedad intelectual y su labor informativa. Un caso paradigmático de esta situación es el de 404 Media, que ha lanzado un grito de socorro ante el plagio sistemático que sufre.

404 Media, un medio independiente fundado en agosto de 2023, ha experimentado de primera mano las consecuencias del plagio asistido por IA. La plataforma, que nació con la intención de ofrecer periodismo de calidad sin restricciones, se ha encontrado en el centro de una lucha contra la replicación no autorizada de su contenido. El equipo de 404 Media ha observado cómo sus artículos, resultado de investigaciones que suponen un coste importante de tiempo y dinero, son sistemáticamente plagiados por bots y redistribuidos en otros sitios web.

Estos artículos alterados, aunque conservan la esencia del contenido original, se presentan bajo una nueva forma, dificultando así la identificación del plagio y la protección de los derechos de autor.

En respuesta a esta situación, 404 Media se ha puesto en contacto con sus lectores para explicarles la situación y comentarles que no tienen más remedio que levantar un muro de registro, cuando su intención inicial era la de ofrecer sus artículos de manera completamente abierta. Ahora requieren a los lectores que se registren con una dirección de correo electrónico para acceder a la mayoría de sus artículos.

Del raspado por bots al procesamiento de texto mediante un parafraseador

Según los responsable de 404 Media, “en diciembre, notamos que artículos en los que invertimos cantidades significativas de tiempo—reportajes que involucraban semanas o meses de investigación, hablar y proteger fuentes, presentar solicitudes de registros públicos, pagar y analizar esos registros, horas o días de escritura, edición y empaquetado—estaban siendo raspados por bots, procesados a través de un “spinner” o parafraseador de artículos de IA, y republicados en sitios web aleatorios”.

Un investigación sobre la inclusión de material de abuso sexual infantil en el modelo de lenguaje de gran tamaño LAION, “una historia sumamente importante y delicada en la que trabajamos casi un año antes de nuestro lanzamiento, con asesoramiento legal y consultas a muchos expertos”, se transformó rápidamente en un artículo titulado “Eliminan una base de datos para entrenar imágenes generativas de IA por contener material de abuso sexual infantil” en un sitio web llamado “Nation World News”.

Otra exclusiva sobre un polizón ruso se convirtió en “Pasajero de LAX llega en vuelo internacional sin pasaporte, visa, ni boleto, según informe” en otro sitio lleno de artículos clonados por IA.

Una entrevista con John Hittler se publicó como “El hombre con el ‘peor apellido en la historia de la humanidad’ revela cómo descubrió sus beneficios” y, por separado, como “Cómo el hombre con el peor apellido en la historia de la humanidad descubrió sus ventajas” en otro sitio web  diferente.

Mejor posicionados los artículos basados en el plagio que los originales

Un artículo sobre cómo el plagio generado por IA está apareciendo en todas partes en Google News, mientras que los artículos originales no, “fue rápidamente recogido por un sitio web llamado “Digital Information World” en un artículo completamente ilegible y obviamente generado por IA titulado “El contenido producido por IA se está comercializando en Google News y la compañía lo sabe”, aparentemente escrito por un cirujano dental que publica artículos en el sitio web aproximadamente cada seis minutos, todos los días, según revelan desde 404 Media. Este medio está, además, indexado en Google News.

Según 404 Media, la problemática del plagio asistido por inteligencia artificial no muestra signos de disminución, sino todo lo contrario. En las últimas semanas, uno de sus investigadores ha estado explorando y experimentando con una serie de herramientas de IA diseñadas para alterar artículos para sus usuarios. Una de estas herramientas, conocida como SpinRewriter, permite a los usuarios crear 1.000 versiones ligeramente distintas de un mismo artículo con un solo clic y publicarlas automáticamente en tantos sitios de WordPress como se desee, utilizando un plugin de pago. Además, ofrece una herramienta que posibilita la gestión de múltiples sitios web desde un único panel de control.

Otras empresas como Byword publicitan herramientas para generación masiva de artículos bajo IA, según cuentan desde 404 Media. Los directivos de 404 Media señalan que la facilidad con la que se pueden generar artículos a través de la inteligencia artificial es alarmante. Jason, uno de sus miembros, creó una cuenta en Byword, introdujo las URLs de algunos de sus artículos y logró generar instantáneamente versiones basadas en ellos. Aunque estos nuevos artículos no eran de alta calidad, mantenían una estructura similar a la original y se acompañaban de imágenes generadas por IA. Byword no solo permite la generación de artículos: también facilita la creación de publicaciones en redes sociales sobre dichos artículos.

Una captura de pantalla de Byword que indica explícitamente a los usuarios que peguen las “url de los artículos de la competencia”. Imagen publicada originalmente en 404 Media.

Byword indica en su sitio web que a Google realmente no le importan los artículos generados por IA y que no se penalizará su uso masivo. “Eso es básicamente -explican desde 404 Media -lo que Google nos dijo cuando señalamos que los artículos generados por IA aparecían en Google News. Google nos comunicó en ese momento que se centra en la calidad de los artículos en Google News, más que en cómo fueron producidos; es decir, por un humano o una IA (¡a pesar de que la calidad del material generado por IA que encontramos en Google News también era de mala calidad)”.

Desde 404 Media, explican que la puesta en marcha del muro de registro ha detenido, hasta el momento, el raspado y la reutilización de su contenido por parte de la inteligencia artificial. “Esto también servirá, esperamos, como medida preventiva contra los impactos de un internet inundado por basura de baja calidad generada por IA”, afirman desde el medio.

Además, subrayan la preocupación de que esta ola de contenido de baja calidad, creado por robots para satisfacer algoritmos de búsqueda, pueda eclipsar el trabajo periodístico auténtico y dificultar el descubrimiento orgánico de sus obras. “No se trata de una hipótesis aleatoria ni de una paranoia sobre el avance de la IA”, explican, citando a autores de un estudio sobre la degradación general en los resultados de búsqueda de Google, Bing y DuckDuckGo, quienes advierten que la IA “solo empeorará el problema”.

404 Media destaca que, a pesar de las críticas recibidas por su muro de registro por correo electrónico, ven esta estrategia como una necesidad para asegurar la viabilidad económica de su periodismo en un momento crítico para la industria.

“No estamos dispuestos a cometer exactamente los mismos errores que las empresas de medios fallidas que han convencido tanto a los lectores como a su personal de que su trabajo no tiene valor y que es prescindible e intercambiable”

Necesitamos su dirección de correo electrónico para asegurarnos de que personas reales, como usted, vean y lean nuestro trabajo”, indican, y concluyen:  “Si bien nos gustaría que la mayor cantidad de gente posible leyera nuestros artículos y que la experiencia fuera lo más sencilla posible, no estamos dispuestos a cometer exactamente los mismos errores que las empresas de medios fallidas que han convencido tanto a los lectores como a su personal de que su trabajo no tiene valor y que es prescindible e intercambiable. No estamos dispuestos a arriesgar nuestros medios de vida o el futuro de nuestra empresa con la idea de que podemos construir un modelo de negocio exitoso centrándonos exclusivamente en recaudar una fracción de un centavo cada vez que alguien hace clic en uno de nuestros artículos”. 

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí