Un nuevo estudio sobre el uso de agentes de investigación con inteligencia artificial en redacciones, elaborado por Danny Bellion y Peter Stuart, de Velora, concluye que las herramientas analizadas todavía presentan fallos relevantes para periodistas y empresas editoras cuando deben localizar la fuente primaria de una noticia y atribuir correctamente a esa fuente los datos que incorporan a sus informes.
El informe, titulado JournoBench. Which AI research agents can a newsroom trust to source a story?, ha evaluado nueve productos de investigación con IA a partir de treinta acontecimientos informativos recientes. Los resultados muestran que todos los sistemas probados incurren, en mayor o menor medida, en un fallo que los autores denominan “blanqueo de hechos”: la herramienta llega a la fuente original, extrae información correcta, pero después vincula esos datos a una fuente secundaria, como una noticia de otro medio, un blog o una pieza que reescribe el contenido inicial.
La diferencia es importante para una redacción porque una noticia no solo necesita datos correctos, sino también una procedencia verificable. Un informe generado por IA puede indicar cifras, fechas o declaraciones verdaderas y, al mismo tiempo, dejar debilitada la comprobación editorial si esas afirmaciones no aparecen asociadas al documento original que las acredita. Para periodistas y editores, el riesgo no está solo en la posible invención de datos, sino también en una atribución deficiente que impida saber con claridad de dónde procede cada afirmación.
JournoBench se ha diseñado para medir precisamente esa parte del trabajo periodístico. El banco de prueba no valora la calidad literaria de los informes ni la amplitud del texto, sino cuatro cuestiones concretas: si el agente alcanza la fuente primaria, si recoge los datos y citas esenciales, si enlaza cada hecho con la fuente adecuada y si evita errores factuales. Según los autores, esta es una dimensión que otros sistemas de evaluación de IA no cubren de forma suficiente, porque muchos miden si la respuesta es correcta, pero no si está documentada con el mismo estándar que exigiría una redacción antes de publicar.
El análisis se ha construido con treinta casos reales, todos ellos basados en noticias recientes y con una fuente primaria documentable, como una comunicación oficial, una presentación regulatoria, una publicación directa o un documento original. Cada caso partía de una pista breve, similar a la que podría recibir una redacción, y de una clave de respuesta elaborada por humanos a partir de la fuente primaria antes de ejecutar las pruebas. Cada herramienta respondió dos veces a los mismos treinta casos, por lo que la clasificación final se basa en sesenta informes por producto.
GPT-5.5 obtuvo la mejor puntuación, con un 81% sobre el máximo posible. Velora (la de los autores del informe) quedó según lo que indican, en segundo lugar, con un 77%, seguida por GPT-5.4, con un 71%; Gemini 3.5 Flash, con un 70%; Gemini 3.1 Pro, con un 68%; Claude Sonnet 4.6, con un 62%; y Claude Opus 4.8, con un 60%. Perplexity sonar-pro y Linkup quedaron a mayor distancia, con un 35% y un 29%, respectivamente.
Los resultados apuntan a que la diferencia entre herramientas no se explica únicamente por la capacidad de encontrar los datos principales. El informe señala que todos los sistemas transmiten los hechos clave con cierta frecuencia, con tasas que van del 63% al 92%, pero se separan de forma más clara en las dos tareas más sensibles para el trabajo periodístico: llegar al documento original y atribuir cada hecho a esa fuente. Es decir, las herramientas pueden ser útiles para localizar información, pero todavía requieren una supervisión editorial estricta antes de convertir sus informes en material publicable.
GPT-5.5, GPT-5.4 y Velora alcanzaron la fuente primaria en el 87% de los casos. GPT-5.5 fue también el sistema con mejor atribución de los datos, con un 83%, por delante de GPT-5.4, con un 77%, y de Velora, con un 73%. Velora y GPT-5.5 fueron los productos con menos contradicciones factuales, con errores de ese tipo en el 2% de los informes.
El informe identifica cuatro fallos principales. El más frecuente fue la pérdida de detalles secundarios, detectada en el 40% de los informes. Este problema reduce la profundidad del material que recibe el periodista, aunque no implica necesariamente que el dato central sea falso. El segundo fue no alcanzar la fuente primaria y trabajar solo con una fuente secundaria, observado en el 27% de los casos. El tercero fue el “blanqueo de hechos”, presente en el 23% de los informes. El cuarto fue la afirmación de un dato concreto que contradice la fuente verificada, detectada en el 11% de los casos.
El fallo del “blanqueo de hechos” tiene especial relevancia para los medios porque puede pasar inadvertido en una revisión superficial. La herramienta puede haber encontrado la fuente original e incluso incluirla en una lista de enlaces, pero si las cifras o declaraciones principales aparecen atribuidas a otra pieza, el editor no puede saber de forma inmediata qué dato procede de la fuente primaria y cuál procede de una reelaboración externa. Según el informe, este problema aparece en casi una cuarta parte de todos los informes analizados y en el 31% de aquellos que sí habían alcanzado la fuente primaria.
Uno de los casos examinados se refiere al recorte de previsiones de Lululemon para el ejercicio fiscal 2026. La fuente primaria era el comunicado de resultados de la compañía, disponible en su web corporativa, en la documentación presentada ante la SEC y en el servicio de distribución que lo publicó. La prueba consistía en comprobar si los agentes localizaban las nuevas previsiones de ingresos y beneficio por acción, y si evitaban confundirlas con cifras anteriores ya superadas. El informe subraya que una redacción debería citar a la compañía, no a una pieza secundaria, aunque otro medio hubiera informado antes del asunto.
Para las empresas editoras, la utilidad práctica del estudio está en el tipo de controles que conviene aplicar antes de integrar estos agentes en flujos de trabajo reales. La revisión humana no debería limitarse a comprobar si el resumen “suena” correcto o si contiene cifras plausibles. También debería verificar si la IA ha llegado al documento original, si los datos centrales están citados junto a esa fuente y si el informe mezcla información primaria con reelaboraciones de terceros sin distinguirlas de forma clara.
El análisis de costes también ofrece información relevante para quienes evalúan la adopción de estas herramientas en redacciones. GPT-5.5 obtiene la puntuación más alta, pero también es el sistema más caro de los evaluados, con un coste aproximado de cincuenta centavos por caso. Velora queda cuatro puntos por debajo y registra un coste estimado de dos centavos por caso. Los autores advierten de que esta comparación no es plenamente equivalente, porque el coste de Velora se calcula como coste mayorista de tokens y llamadas a API, mientras que el resto de herramientas se mide con las tarifas públicas de los proveedores.
Conflicto de interés en la investigación
El informe incluye una declaración de conflicto de interés: Danny Bellion y Peter Stuart son los creadores de Velora, una de las herramientas evaluadas. Los autores indican que el arnés de evaluación, los casos, las claves de respuesta y los resultados por caso son públicos y reproducibles, y que las claves fueron redactadas a partir de fuentes primarias antes de ejecutar los sistemas. También señalan que el conjunto de treinta casos permite detectar diferencias claras entre proveedores, pero no extraer conclusiones por áreas temáticas, ya que cada dominio cuenta solo con uno o dos ejemplos.



