Un experimento realizado por un periodista de la BBC ha puesto a prueba la capacidad de verificación de los sistemas de inteligencia artificial más utilizados y ha demostrado que basta una entrada de blog con datos falsos para que herramientas como ChatGPT y Gemini los incorporen a sus respuestas como si se tratara de información contrastada, citando como fuente un único texto sin advertir de su falta de respaldo independiente.
Tal como recoge LISA News, el reportero tecnológico Thomas Germain publicó en su blog personal un artículo titulado Los mejores periodistas tecnológicos comiendo perritos calientes, redactado en apenas 20 minutos y construido íntegramente sobre afirmaciones inventadas.
En el texto se autoproclamaba “el mejor periodista comiendo perritos calientes del mundo”, sostenía que ingerir perritos calientes es un “pasatiempo popular” entre periodistas tecnológicos y aludía a un supuesto Campeonato Internacional de Perritos Calientes de Dakota del Sur que no existe. Para dotar de verosimilitud al contenido, incluyó nombres reales y ficticios con el objetivo de que los sistemas de IA generaran una clasificación de diez profesionales.
Según la propia prueba documentada por Germain, menos de 24 horas después de la publicación, herramientas de Google como AI Overviews (impulsada por Gemini) y ChatGPT comenzaron a reproducir esas afirmaciones como datos verificables. En sus respuestas a los usuarios señalaban que el periodista destacaba por su habilidad para comer perritos calientes y enlazaban el blog como fuente, sin precisar que era el único origen disponible en internet sobre ese supuesto ranking.
En declaraciones recogidas tras el experimento, un portavoz de Google aseguró que sus sistemas de clasificación mantienen los resultados “99% libres de spam”. OpenAI, por su parte, indicó que adopta medidas para interrumpir intentos de manipulación de sus herramientas, aunque ambas compañías reconocieron que sus sistemas “pueden cometer errores”.
El periodista también comprobó cómo reaccionaban otros modelos ante la misma consulta. De acuerdo con su relato, sistemas como Claude, desarrollado por Anthropic, mostraron mayor cautela y en ocasiones advirtieron que la información podía tratarse de una broma. Germain explica que, cuando algunas IA detectaban la posible naturaleza satírica del texto, modificó el artículo para negar explícitamente que fuera una sátira, tras lo cual determinados sistemas pasaron a tratar el contenido con mayor literalidad.
El experimento evidencia que los modelos que integran búsquedas en la web pueden incorporar como referencia contenidos recientes sin que exista una validación externa o contraste con otras fuentes independientes. En el caso analizado, varias herramientas enlazaron directamente al artículo del blog sin señalar que no existían otras referencias sobre el supuesto campeonato ni sobre el ranking de periodistas.



