Un estudio realizado por la Universidad de Washington, centrado en agencias de noticias, ha demostrado que los periodistas están publicando los borradores de noticias generados mediante el uso de ChatGPT y otros modelos de lenguaje generativo (LLM) casi sin modificaciones. Es decir, la adaptación y la necesaria intervención humana, una de las exigencias de las directrices establecidas por los medios para permitir el uso de la IA, no se están cumpliendo.
El estudio, conducido por Natalie Grace Brigham, Chongjiu Gao, Tadayoshi Kohno, Franziska Roesner y Niloofar Mireshghallah, ha descubierto que existe un alto grado de superposición entre los borradores generados por los modelos de lenguaje y los artículos finalmente publicados por los periodistas. Los casos
Esta superposición se cuantificó utilizando el índice de coincidencia ROUGE-L, que mide la longitud de la subsecuencia común más larga entre dos textos. En este caso, el índice de coincidencia media de los casos analizados por la investigación fue de 0,62, lo que indica una notable similitud entre el contenido generado por la inteligencia artificial y el contenido publicado.
Un valor de 0,62 en el índice ROUGE-L significa que, en promedio, el 62% del contenido generado por los modelos de lenguaje se conserva en el artículo final publicado sin modificaciones significativas.
En el contexto del periodismo, un índice de 0,5 ya se considera alto en dominios de privacidad y política. El valor de 0,62 sugiere que las intervenciones humanas son mínimas, lo cual plantea preocupaciones sobre la autenticidad y originalidad del contenido publicado, según explican los autores de la investigación.
Casos específicos de estudio
El estudio incluyó casos concretos, como uno en el que un artículo generado por el modelo y publicado por una agencia tuvo un índice de coincidencia de 0,71, evidenciando una modificación casi nula del texto generado por la IA.
En este caso, la agencia utilizó un artículo externo como estímulo, solicitando al modelo generar un nuevo artículo a partir de esa información. El borrador generado por el modelo fue editado manualmente y publicado el mismo día, lo que demuestra un proceso rápido y con mínima intervención humana.
Otro caso destacado es el de una interacción en múltiples turnos donde se usaron varios estímulos, incluyendo un borrador interno, una transcripción de entrevista y un artículo de la misma agencia. Los índices de coincidencia en este caso fueron de 0,42 y 0,37 para los diferentes borradores generados, mostrando también una baja intervención humana antes de la publicación final.
Los periodistas envían material confidencial cuando usan los LLMs
El estudio también ha revelado que los periodistas proporcionan materiales sensibles a los LLMs, como correspondencia confidencial y artículos de otras agencias. Aproximadamente el 18% de los estímulos identificados eran artículos de otras agencias y el 9% eran potenciales conversaciones privadas, lo que plantea serios riesgos de privacidad.
Asimismo, se ha demostrado que la mayoría de los artículos se publicaron el mismo día o un día después de la generación del borrador por los modelos de lenguaje, indicando un proceso rápido y con poca revisión humana.
Según el informe, los periodistas utilizan una variedad de estímulos para generar contenido, incluyendo artículos internos, transcripciones de entrevistas y borradores previos. Los estímulos externos representaron más de dos tercios del material utilizado.
Para llevar a cabo el estudio, los investigadores de la Universidad de Washington analizaron el conjunto de datos WildChat, que incluye 650.000 conversaciones recopiladas ofreciendo acceso gratuito a GPT-3.5 y GPT-4. Identificaron posibles interacciones de periodistas revisando conversaciones con al menos cuatro tipos de información personal identificable (PII). Verificaron estas interacciones cotejándolas con artículos publicados en dos agencias de noticias, denominadas Agencia A y Agencia B para mantener el anonimato.
Los investigadores utilizaron un modelo de reconocimiento de entidades nombradas (NER) para identificar conversaciones con múltiples tipos de PII, centrando su análisis en un subconjunto de 5.000 turnos de conversación. Buscaron artículos con contenido altamente similar al generado por los LLMs en los sitios web de las agencias de noticias identificadas para confirmar que las consultas fueron realizadas por periodistas. Finalmente, clasificaron las tareas solicitadas a los LLMs en generación de artículos, generación de titulares y edición de artículos. La mayoría de las interacciones (83,1%) fueron para la generación de artículos.
Los resultados del estudio subrayan la necesidad de establecer directrices claras y mejores prácticas para el uso de LLMs en el periodismo, así como mejorar la alfabetización en inteligencia artificial para los periodistas.
Se sugiere en el informe que investigaciones futuras podrían explorar enfoques desde la interacción humano-computadora y la seguridad y privacidad utilizables para guiar a los usuarios hacia comportamientos más beneficiosos.