El uso de herramientas de búsqueda impulsadas por inteligencia artificial crece rápidamente y en países como Estados Unidos, uno de cada cuatro ciudadanos reconoce haber sustituido buscadores tradicionales por chatbots generativos. Estos sistemas extraen información actualizada de medios de comunicación, pero presentan graves deficiencias al citar correctamente las fuentes originales, generando importantes preocupaciones sobre su fiabilidad.
Un estudio realizado por el Tow Center for Digital Journalism de Columbia evaluó ocho motores de búsqueda generativa (ChatGPT, Perplexity, Perplexity Pro, Copilot, Gemini, DeepSeek, Grok 2 y Grok 3). Los investigadores seleccionaron aleatoriamente 10 artículos de 20 editores, extrayendo fragmentos específicos para evaluar si los chatbots podían identificar correctamente el título, editor, fecha y URL. En total, se realizaron 1.600 consultas. Los resultados han sido compartidos en Columbia Journalism Review.
Los resultados fueron clasificados según precisión en cinco categorías:
- Correcta
- Correcta pero incompleta
- Parcialmente incorrecta
- Completamente incorrecta
- No proporcionada
- Bloqueado por crawler (robots.txt)
Resultados generales. Más del 60% de las respuestas fueron incorrectas en distintos grados. Perplexity tuvo un 37% de respuestas incorrectas, mientras Grok 3 mostró una tasa de error del 94%. Los chatbots solían dar respuestas equivocadas con mucha confianza, sin indicar incertidumbre ni desconocimiento.
Premium no es sinónimo de precisión. Aunque los modelos premium (Perplexity Pro y Grok 3, con costes mensuales de 20 y 40 dólares respectivamente) proporcionaron más respuestas correctas en términos absolutos, también mostraron mayores tasas de error. Este fenómeno se debe a que suelen ofrecer respuestas firmes y equivocadas en lugar de admitir desconocimiento o evitar contestar.
Incumplimiento del protocolo robots.txt Cinco de los ocho chatbots (ChatGPT, Perplexity, Perplexity Pro, Copilot y Gemini) han hecho públicos los nombres de sus crawlers, permitiendo a los editores bloquearles mediante robots.txt. Sin embargo, en muchos casos estos chatbots extrajeron información incluso cuando las páginas estaban bloqueadas.
Destaca especialmente el caso de Perplexity Pro, que identificó correctamente cerca de un tercio de artículos de National Geographic, pese a que la revista bloquea sus crawlers y carece de acuerdos formales con la empresa. Esto sugiere que algunos chatbots ignoran deliberadamente las restricciones establecidas por los editores.
Problemas en la citación y atribución. La investigación detectó numerosos errores al enlazar correctamente las fuentes. Por ejemplo, DeepSeek atribuyó incorrectamente la fuente en 115 de 200 consultas. En otros casos, chatbots como Grok 3 generaron URLs falsas o rotas. Más de la mitad de sus respuestas dirigían a páginas inexistentes o al sitio web principal del editor, no al artículo concreto.
Incluso cuando existían acuerdos comerciales con medios (como Texas Tribune con Perplexity), estos sistemas citaron versiones sindicadas o republicadas por terceros (Yahoo News o AOL), privando así a los autores originales del tráfico y la atribución correctas.
Impacto negativo para los editores. La incapacidad de los chatbots para enlazar adecuadamente a los artículos originales afecta negativamente a los medios, que ven reducida su visibilidad y potenciales ingresos por publicidad. Danielle Coffey, presidenta de News Media Alliance, advierte que esto podría dañar gravemente al sector periodístico, impidiendo monetizar contenidos y remunerar adecuadamente a los periodistas.
Limitada eficacia de los acuerdos con medios. Aunque OpenAI y Perplexity cuentan con acuerdos explícitos con algunos medios (como Time o San Francisco Chronicle), no se observó que estas alianzas garantizaran una mayor precisión en las citas. Time fue uno de los más acertadamente identificados, pero ni siquiera en ese caso hubo un 100% de efectividad. Por otro lado, ChatGPT apenas identificó correctamente un artículo del San Francisco Chronicle, pese a la existencia de un acuerdo de colaboración.
Conclusiones del estudio. Este estudio, alineado con investigaciones anteriores, evidencia patrones preocupantes en los motores de búsqueda generativos, destacando especialmente la seguridad infundada al ofrecer información incorrecta, errores sistemáticos en atribución y problemas en la gestión del contenido bloqueado por los editores. Estos factores generan una preocupación real sobre la calidad de la información proporcionada a los usuarios, afectando tanto a consumidores como a productores de noticias.
Reacciones de empresas de IA De las compañías mencionadas, solo OpenAI y Microsoft respondieron al informe, aunque evitaron comentarios específicos sobre los hallazgos concretos:
- OpenAI afirmó apoyar a los editores mediante enlaces claros, aunque reconoció la necesidad de mejorar continuamente.
- Microsoft aseguró respetar el estándar robots.txt y no usar contenido bloqueado para entrenar sus modelos.
Limitaciones del estudio. Los investigadores aclaran que el estudio refleja un comportamiento específico en condiciones controladas y que las respuestas pueden variar si se repiten las consultas. Además, subrayan que los hallazgos no son extrapolables automáticamente a todos los chatbots o medios de comunicación existentes.