sábado 4 de abril de 2026
InicioAudienciaEl rendimiento desigual de la IA en tareas periodísticas obliga a verificar...

El rendimiento desigual de la IA en tareas periodísticas obliga a verificar datos y limitar su alcance

Una investigación coordinada por Hilke Schellmann junto a un equipo académico y periodístico en Estados Unidos ha puesto a prueba varias herramientas de inteligencia artificial utilizadas en redacciones y ha concluido que, mientras los resúmenes breves de reuniones ofrecen resultados útiles y fiables, los resúmenes largos y las aplicaciones diseñadas para la búsqueda de bibliografía científica presentan inconsistencias y errores significativos. El estudio, publicado en Columbia Journalism Review, propone acotar el uso de estas tecnologías a tareas muy concretas y advierte de la necesidad de estándares comunes que garanticen rigor en su aplicación profesional.

Una prueba independiente liderada por la periodista Hilke Schellmann junto a un equipo de NYU Journalism, Sloane Lab de la Universidad de Virginia y MuckRock ha sometido a examen varias herramientas de inteligencia artificial de uso común en redacciones para tareas de transcripción, toma de notas, resumen, investigación y análisis de datos, y constata que, en ausencia de estándares operativos claros en las empresas informativas, estos sistemas ofrecen resultados desiguales: funcionan con fiabilidad en resúmenes breves de reuniones, pero fallan cuando se les pide síntesis extensas o cuando se emplean para localizar y jerarquizar bibliografía científica relevante, un uso cada vez más habitual en la cobertura de ciencia.

Tal como recoge Columbia Journalism Review, el trabajo se plantea ante la proliferación de políticas generales de IA que no bajan al detalle del flujo de trabajo diario y ante la práctica extendida de “probar por sensaciones” sin mediciones objetivas.

El equipo estructura el ensayo en dos bloques. En el primero, aplica a actas y transcripciones de reuniones de gobiernos locales —Clayton County (Georgia), Cleveland y Long Beach (Nueva York)— cuatro chatbots: ChatGPT-4o (200 dólares/mes), Claude Opus 4 (100 dólares/mes), Perplexity Pro (20 dólares/mes) y Gemini 2.5 Pro (periodo de prueba).

Para cada documento pide tres resúmenes breves (≈200 palabras) y tres extensos (≈500 palabras), variando la redacción del encargo desde una instrucción genérica hasta preguntas concretas sobre propósito, intervinientes, asuntos tratados y decisiones. Cada prompt se ejecuta cinco veces por herramienta para medir consistencia y se revisan además las condiciones de recogida y uso de datos del proveedor, un aspecto crítico cuando se trabaja con información sensible.

Te puede interesar:  Solo una de cada cinco empresas de medios cuenta con una estrategia formal de audiencia

Los resultados en resúmenes breves muestran un desempeño sólido: todos los modelos, salvo Gemini 2.5 Pro en esta batería, superan a los resúmenes humanos en retención de datos y apenas incurren en alucinaciones, con mejor rendimiento cuando la instrucción es simple (“dame un resumen corto”).

En resúmenes extensos, en cambio, el rendimiento cae de forma notable: aproximadamente la mitad de los hechos presentes en las síntesis humanas no aparecen en las generadas por IA y aumentan los errores factuales.

El contraste de tiempos es amplio —entre 3 y 4 horas por resumen humano frente a alrededor de 1 minuto por salida automática—, pero la recomendación operativa es mantener el uso de IA en resúmenes breves para apoyo interno y verificar siempre los datos antes de publicación.

En el conjunto de pruebas, ChatGPT-4o destaca por consistencia y precisión, con errores e invenciones por debajo del 1 %, mientras que Claude Opus 4 también ofrece buen nivel de exactitud; en experiencia de uso, el equipo valora como más intuitivos ChatGPT-4o y Perplexity Pro. Solo Perplexity responde a la solicitud de comentarios; el resto de compañías no remiten aportaciones durante el periodo de cierre.

El segundo bloque examina herramientas de investigación para localizar y organizar literatura científica —Elicit, Semantic Scholar, ResearchRabbit, Inciteful y Consensus— con un patrón de referencia tomado de cuatro artículos académicos premiados en ciencias sociales, informática, química y medicina, cuyas revisiones de literatura incluyen entre 31 y 79 citas. Tras introducir cada paper en los sistemas, el análisis compara el solapamiento entre las referencias propuestas por las aplicaciones y las citas reales de los trabajos de referencia.

Te puede interesar:  Jeff Jarvis plantea el abandono del papel, la colaboración y la escucha como ejes para la supervivencia del periodismo local

El desempeño es bajo y, en ocasiones, nulo: salvo un caso con Semantic Scholar que alcanza alrededor del 50 % de coincidencias, la mayoría de las herramientas se sitúa por debajo del 6 % de solapamiento y, con frecuencia, en el 0 %. Además, las listas de artículos sugeridas por las distintas aplicaciones apenas coinciden entre sí y varían de manera apreciable al repetir la ejecución días después, pese a que el consenso científico no cambia en ese intervalo. Esta inestabilidad y la escasa intersección entre resultados introducen riesgos para la cobertura: un periodista puede pasar por alto trabajos críticos, controversias publicadas o antecedentes que matizan o contradicen hallazgos recientes. De los proveedores consultados, solo Consensus remite una respuesta general sobre el propósito de su herramienta; el resto no contesta.

Conclusiones para publishers

La conclusión operativa para redacciones y publishers es clara en el perímetro de la prueba: los grandes modelos lingüísticos pueden apoyar con eficiencia la elaboración de resúmenes breves de reuniones para trabajo interno —bajo verificación humana posterior—, pero no alcanzan el nivel requerido para síntesis extensas destinadas a publicación; las herramientas de “literature review” evaluadas no ofrecen, por ahora, profundidad ni consistencia suficientes para sustentar el trabajo periodístico en ciencia.

El siguiente paso pasa por desarrollar, de forma comunitaria, protocolos de test estandarizados que alineen la adopción de estas tecnologías con los estándares de precisión y rigor exigidos por el periodismo profesional.

Artículos relacionados

DEJA UNA RESPUESTA

Please enter your comment!
Please enter your name here

ÚLTIMOS ARTÍCULOS

LO MÁS LEÍDO