Una investigación de The New York Times ha analizado el funcionamiento de los resúmenes generados por inteligencia artificial en el buscador de Google y concluye que, pese a alcanzar una tasa de acierto cercana al 91%, el volumen de consultas procesadas por la compañía provoca que el sistema genere millones de respuestas incorrectas cada hora en el espacio más visible de la página de resultados.
El estudio se basa en un análisis encargado a la empresa Oumi, que evaluó más de 4.300 búsquedas mediante el test SimpleQA, una herramienta habitual para medir la precisión de sistemas de inteligencia artificial, y comparó dos versiones del modelo de Google, observando una mejora desde el 85% de acierto con Gemini 2 hasta el 91% con Gemini 3 tras su actualización.
La investigación identifica un problema estructural en la calidad de las respuestas: más de la mitad de las consideradas correctas no están plenamente respaldadas por las fuentes que citan, lo que dificulta su verificación y reduce la fiabilidad del sistema incluso cuando el dato principal es acertado.
El análisis también señala que los resúmenes combinan contenidos procedentes de fuentes de distinta calidad, incluyendo plataformas como Facebook y Reddit entre las más citadas, con mayor presencia en los casos en los que las respuestas son incorrectas, lo que introduce inconsistencias en un producto que Google sitúa por encima de los enlaces tradicionales.
La investigación recoge además ejemplos en los que el sistema genera respuestas erróneas a partir de fuentes válidas o añade información incorrecta a datos correctos, lo que pone de relieve limitaciones en la interpretación de contenidos y en la construcción de las respuestas.
Google ha cuestionado la validez del análisis y sostiene que la metodología empleada no refleja el comportamiento real de las búsquedas de los usuarios, aunque reconoce que estos sistemas pueden cometer errores e incluye advertencias para que se contraste la información.



