Un informe del Tow Center for Digital Journalism revela un volumen significativo de errores en la atribución de contenidos periodísticos por parte de ChatGPT. La investigación concluye que, tanto en medios que han bloqueado el acceso de OpenAI a su contenido como en aquellos que mantienen acuerdos de licencia, las citas y referencias del chatbot muestran imprecisiones o recursos a copias no oficiales. Esta práctica podría generar confusión en los lectores y perjudicar el reconocimiento del trabajo editorial de las redacciones originales.
La investigación, de la que se hace eco Columbia Journalism Review, se centró en 200 citas tomadas de 20 medios de comunicación. Cada publicación aportó diez artículos, de los cuales se extrajeron fragmentos con la intención de comprobar si ChatGPT atribuía correctamente su procedencia. El objetivo era reproducir un comportamiento de búsqueda habitual: en buscadores tradicionales como Google o Bing, pegar un extracto literal de un texto suele conducir a la fuente original dentro de los primeros resultados.
Los investigadores introdujeron los 200 fragmentos en el buscador de ChatGPT y analizaron la precisión de sus respuestas. En 153 ocasiones, la herramienta ofreció atribuciones erróneas o incompletas. Solo siete veces reconoció no poder localizar la fuente exacta y prefirió “inventar” información en la mayoría de ocasiones restantes.
Los errores incluían citar páginas de sindicación o incluso webs que habían plagiado la totalidad de un artículo. Por ejemplo, el informe destaca el caso de The New York Times, que bloquea los rastreadores de OpenAI y se encuentra en litigio con la compañía. Aun así, ChatGPT atribuyó citas del Times a sitios que habían reproducido ilícitamente el contenido. Un fenómeno similar afectó a MIT Tech Review, que permite el acceso a sus contenidos, pero vio cómo su artículo aparecía vinculado a Government Technology, un medio que había sindicado la pieza original.
Factores clave en las inexactitudes
Los autores señalan que la “temperatura” del modelo, un parámetro que introduce variaciones para evitar respuestas repetitivas, agrava el problema de la consistencia. En ocasiones, ChatGPT podía ofrecer la cita correcta en un intento y, acto seguido, atribuirla a un medio o fecha equivocados en otro. Esta fluctuación potencia la incertidumbre, pues cada consulta podría generar una respuesta diferente.
El Tow Center advierte también sobre el riesgo de “dilución de marca”, ya que el público puede no tener claro dónde se originó la información. Cuando una misma cita procede de varias fuentes que se han limitado a copiar el contenido, ChatGPT tiende a enlazar a cualquiera de esos sitios indistintamente, perdiéndose el reconocimiento de la cobertura original.
Portavoces de la compañía señalaron que se trata de un “test atípico” y que el Tow Center no facilitó los datos completos de la metodología antes de la publicación. Afirmaron que la herramienta está diseñada para proporcionar enlaces claros, resúmenes y atribuciones, y que se respetan las preferencias de los editores a través del archivo “robots.txt”.
Asimismo, aseguraron que trabajan de forma continua en la mejora de la precisión de las referencias y en honrar las solicitudes de aquellos medios que optan por bloquear o permitir el acceso a su contenido.
Diversos editores citados en el informe expresan preocupación por el posible perjuicio a la reputación de sus cabeceras y la diseminación de información equivocada o descontextualizada. Medios como The New York Post o The Atlantic, que mantienen acuerdos de licencia con OpenAI, no están exentos de estas inconsistencias. Otros, como The Washington Post o Mother Jones, habilitaron el rastreo total, pero constatan que muchas de sus citas no aparecen correctamente referenciadas.
La filtración de contenidos a través de copias o agregadores plantea, además, un dilema legal. Con millones de usuarios empleando cada vez más plataformas de inteligencia artificial para buscar información, las redacciones temen perder el control sobre cómo se presenta su trabajo. El riesgo de plagio o de ausencia de atribución clara podría incrementar la confusión y erosionar los ingresos por publicidad y suscripciones.
Varias cabeceras, como The New York Times y Orlando Sentinel, han llevado a los tribunales sus disputas con OpenAI, alegando violaciones de derechos de autor y uso no autorizado de contenidos.
El informe del Tow Center menciona que estas demandas podrían sentar precedentes sobre el alcance del “uso justo” que OpenAI y otras empresas de inteligencia artificial argumentan para entrenar o desplegar sus modelos.
Sin embargo, existe incertidumbre en torno a si los veredictos acabarán avalando la forma en que estas plataformas utilizan el contenido periodístico o impondrán restricciones a su funcionamiento.