El rendimiento desigual de la IA en tareas periodísticas obliga a verificar datos y limitar su alcance

Una prueba independiente liderada por la periodista Hilke Schellmann junto a un equipo de NYU Journalism, Sloane Lab de la Universidad de Virginia y MuckRock ha sometido a examen varias herramientas de inteligencia artificial de uso común en redacciones para tareas de transcripción, toma de notas, resumen, investigación y análisis de datos, y constata que, en ausencia de estándares operativos claros en las empresas informativas, estos sistemas ofrecen resultados desiguales: funcionan con fiabilidad en resúmenes breves de reuniones, pero fallan cuando se les pide síntesis extensas o cuando se emplean para localizar y jerarquizar bibliografía científica relevante, un uso cada vez más habitual en la cobertura de ciencia.

Tal como recoge Columbia Journalism Review, el trabajo se plantea ante la proliferación de políticas generales de IA que no bajan al detalle del flujo de trabajo diario y ante la práctica extendida de “probar por sensaciones” sin mediciones objetivas.

El equipo estructura el ensayo en dos bloques. En el primero, aplica a actas y transcripciones de reuniones de gobiernos locales —Clayton County (Georgia), Cleveland y Long Beach (Nueva York)— cuatro chatbots: ChatGPT-4o (200 dólares/mes), Claude Opus 4 (100 dólares/mes), Perplexity Pro (20 dólares/mes) y Gemini 2.5 Pro (periodo de prueba).

Para cada documento pide tres resúmenes breves (≈200 palabras) y tres extensos (≈500 palabras), variando la redacción del encargo desde una instrucción genérica hasta preguntas concretas sobre propósito, intervinientes, asuntos tratados y decisiones. Cada prompt se ejecuta cinco veces por herramienta para medir consistencia y se revisan además las condiciones de recogida y uso de datos del proveedor, un aspecto crítico cuando se trabaja con información sensible.

Te puede interesar: Solo una de cada cinco empresas de medios cuenta con una estrategia formal de audiencia

Los resultados en resúmenes breves muestran un desempeño sólido: todos los modelos, salvo Gemini 2.5 Pro en esta batería, superan a los resúmenes humanos en retención de datos y apenas incurren en alucinaciones, con mejor rendimiento cuando la instrucción es simple (“dame un resumen corto”).

En resúmenes extensos, en cambio, el rendimiento cae de forma notable: aproximadamente la mitad de los hechos presentes en las síntesis humanas no aparecen en las generadas por IA y aumentan los errores factuales.

El contraste de tiempos es amplio —entre 3 y 4 horas por resumen humano frente a alrededor de 1 minuto por salida automática—, pero la recomendación operativa es mantener el uso de IA en resúmenes breves para apoyo interno y verificar siempre los datos antes de publicación.

En el conjunto de pruebas, ChatGPT-4o destaca por consistencia y precisión, con errores e invenciones por debajo del 1 %, mientras que Claude Opus 4 también ofrece buen nivel de exactitud; en experiencia de uso, el equipo valora como más intuitivos ChatGPT-4o y Perplexity Pro. Solo Perplexity responde a la solicitud de comentarios; el resto de compañías no remiten aportaciones durante el periodo de cierre.

El segundo bloque examina herramientas de investigación para localizar y organizar literatura científica —Elicit, Semantic Scholar, ResearchRabbit, Inciteful y Consensus— con un patrón de referencia tomado de cuatro artículos académicos premiados en ciencias sociales, informática, química y medicina, cuyas revisiones de literatura incluyen entre 31 y 79 citas. Tras introducir cada paper en los sistemas, el análisis compara el solapamiento entre las referencias propuestas por las aplicaciones y las citas reales de los trabajos de referencia.

Te puede interesar: Jeff Jarvis plantea el abandono del papel, la colaboración y la escucha como ejes para la supervivencia del periodismo local

El desempeño es bajo y, en ocasiones, nulo: salvo un caso con Semantic Scholar que alcanza alrededor del 50 % de coincidencias, la mayoría de las herramientas se sitúa por debajo del 6 % de solapamiento y, con frecuencia, en el 0 %. Además, las listas de artículos sugeridas por las distintas aplicaciones apenas coinciden entre sí y varían de manera apreciable al repetir la ejecución días después, pese a que el consenso científico no cambia en ese intervalo. Esta inestabilidad y la escasa intersección entre resultados introducen riesgos para la cobertura: un periodista puede pasar por alto trabajos críticos, controversias publicadas o antecedentes que matizan o contradicen hallazgos recientes. De los proveedores consultados, solo Consensus remite una respuesta general sobre el propósito de su herramienta; el resto no contesta.

Conclusiones para publishers

La conclusión operativa para redacciones y publishers es clara en el perímetro de la prueba: los grandes modelos lingüísticos pueden apoyar con eficiencia la elaboración de resúmenes breves de reuniones para trabajo interno —bajo verificación humana posterior—, pero no alcanzan el nivel requerido para síntesis extensas destinadas a publicación; las herramientas de “literature review” evaluadas no ofrecen, por ahora, profundidad ni consistencia suficientes para sustentar el trabajo periodístico en ciencia.

El siguiente paso pasa por desarrollar, de forma comunitaria, protocolos de test estandarizados que alineen la adopción de estas tecnologías con los estándares de precisión y rigor exigidos por el periodismo profesional.

ÚLTIMOS ARTÍCULOS

LO MÁS LEÍDO

El rendimiento desigual de la IA en tareas periodísticas obliga a verificar datos y limitar su alcance

Conclusiones para publishers

Artículos relacionados

TikTok, X y YouTube concentran ya en España, Francia, Polonia y Eslovaquia más contenido problemático que información creíble

El periodismo de investigación pone el foco en el poder de las tecnológicas y la opacidad de la inteligencia artificial

TikTok, Instagram y YouTube desplazan a las webs de noticias entre los jóvenes y agravan la pérdida de vínculo con las marcas informativas

El tráfico digital se redistribuye y reduce la dependencia de buscadores mientras crecen el consumo interno y el “dark social”

Comunidad, acceso exclusivo e inteligencia artificial: la estrategia de Hello! para reforzar la relación con sus lectores

El renacimiento de los comentarios: la conversación como motor de fidelización

El Congreso de Periodismo de Huesca reivindica el rigor periodístico y la credibilidad frente a la desinformación

Carlos Dada: “El periodismo es resistencia”

Solo una de cada cinco empresas de medios cuenta con una estrategia formal de audiencia

Comunidad, datos e inteligencia artificial: la estrategia del Atlanta Journal-Constitution tras el cierre del papel

El tono emocional y la estructura narrativa determinan el nivel de interacción con las noticias en redes sociales

La mitad de las empresas experimenta con IA sin impacto real en resultados y solo un tercio se siente preparada para el cambio

DEJA UNA RESPUESTA Cancelar respuesta

ÚLTIMOS ARTÍCULOS

TikTok, X y YouTube concentran ya en España, Francia, Polonia y Eslovaquia más contenido problemático que información creíble

Podcast 41#. Redes sociales como fuente informativa. Entrevista a Carmela Ríos

El periodismo de investigación pone el foco en el poder de las tecnológicas y la opacidad de la inteligencia artificial

TikTok, Instagram y YouTube desplazan a las webs de noticias entre los jóvenes y agravan la pérdida de vínculo con las marcas informativas

Más contexto, mejores respuestas: así influye el mensaje en la inteligencia artificial

LO MÁS LEÍDO

Podcast 41#. Redes sociales como fuente informativa. Entrevista a Carmela Ríos

Los medios pierden peso como primera fuente ante buscadores y redes en noticias de última hora en Estados Unidos

El periodismo de investigación pone el foco en el poder de las tecnológicas y la opacidad de la inteligencia artificial

TikTok, X y YouTube concentran ya en España, Francia, Polonia y Eslovaquia más contenido problemático que información creíble

El Congreso francés aprueba una ley para obligar a las plataformas a pagar a los medios por sus contenidos

SÍGUENOS

El rendimiento desigual de la IA en tareas periodísticas obliga a verificar datos y limitar su alcance

Conclusiones para publishers

Artículos relacionados

DEJA UNA RESPUESTA Cancelar respuesta

.tdi_80{margin-top:20px!important;border-color:#ffffff!important;border-style:solid!important;border-width:2px 0px 0px 0px!important} body .tdi_81{text-align:left;color:#ffffff}.tdi_81{font-size:30px!important;line-height:2!important;font-weight:700!important}LO MÁS LEÍDO

SÍGUENOS

LO MÁS LEÍDO