Las redacciones de todo el mundo integran cada vez más herramientas de inteligencia artificial generativa en tareas de edición, traducción, búsqueda y recomendaciones, al tiempo que afloran evidencias de que estos sistemas reproducen los sesgos presentes en sus datos de entrenamiento y en las decisiones humanas que guían su diseño.
La discusión ya no se limita a si conviene o no usar estas tecnologías, sino a cómo reducir daños concretos: desde errores de reconocimiento que afectan a minorías hasta personalizaciones que estrechan el menú informativo. En este escenario, el Reuters Institute for the Study of Journalism ha publicado una investigación que ordena riesgos habituales, casos documentados y respuestas prácticas para organizaciones periodísticas.
El análisis, firmado por Ramaa Sharma, se apoya en conversaciones con 18 periodistas, directivos, tecnólogos y académicos y parte de una noción clave formulada por Matthias Holweg (Saïd Business School, Oxford): el “sesgo es una característica, no un fallo” de los modelos porque aprenden de fuentes sesgadas.
La síntesis clasifica el problema en tres planos que se entrecruzan en los flujos de trabajo: el sesgo estadístico (muestras incompletas o desbalanceadas), el cognitivo (decisiones influenciadas por atajos mentales de quienes seleccionan y etiquetan) y el social (inequidades históricas codificadas en los datos). La pieza propone documentar con metadatos cada fase —qué se preguntó, qué se probó, qué se corrigió— para poder auditar decisiones y mitigaciones cuando el sistema ya está en producción.
Los ejemplos recogidos ilustran dónde falla y cómo mejora. En traducción y transcripción, la radiotelevisión pública neerlandesa NPO descarta combinaciones como neerlandés–árabe o –chino por baja fiabilidad; en India, Scroll describe las dificultades de modelizar el hindi real —dialectos, Hinglish y urdu— y cita la iniciativa pública BHASHINI para ampliar datos representativos; en Baviera, Bayerischer Rundfunk desarrolla un sistema que lleva el dialecto al alemán estándar; en Suecia, SVT reduce un 47% el error en sueco tras añadir 50.000 horas de audio nacionales a su entrenamiento.
En el frente visual y de seguridad, el texto recuerda la suspensión de la función de generación de personas en Gemini por salidas inexactas y el caso de una identificación errónea con reconocimiento facial en Detroit, dos episodios distintos que subrayan riesgos de entrenamiento y despliegue.
La mirada se extiende a productos editoriales cotidianos. Un test de feeds personalizados en el tabloide danés Ekstra Bladet detecta ligeros desplazamientos: más contenidos de derecha, menos noticias duras y una gama temática más estrecha. Para evitar estos desajustes, el Financial Times incorpora listas de verificación internas (consentimiento, representatividad de los datos, pruebas de equidad, diversidad de perspectivas y mecanismos de apagado) y revisiones interdisciplinarias previas a cualquier puesta en servicio. En paralelo, Hugging Face impulsa bancos de prueba —como Civics y Shades— que evalúan cómo responden los modelos en cuestiones de interés público y qué estereotipos afloran en distintos idiomas.
El reportaje incluye vectores de riesgo deliberado, como inyecciones de prompt y envenenamiento de conjuntos de datos, y señala respuestas organizativas emergentes en los medios: desde la figura del reportero de rendición de cuentas algorítmica en Bayerischer Rundfunk hasta herramientas para auditar lenguaje y encuadres informativos en universidades y cadenas públicas. El texto cierra con una conclusión operativa para las redacciones: eliminar el sesgo quizá no sea viable, pero sí lo es mitigarlo mediante equipos interdisciplinares, documentación desde origen y monitorización continua de calidad y equidad en los sistemas que ya se usan en la producción diaria.



