jueves 30 de abril de 2026
InicioACTUALIDADEl 35% de las webs creadas desde 2022 contiene texto generado por...

El 35% de las webs creadas desde 2022 contiene texto generado por inteligencia artificial, según un estudio internacional

Una investigación basada en datos del Internet Archive concluye que más de un tercio de los sitios web creados desde finales de 2022 incluye contenido generado o asistido por inteligencia artificial, una proporción que no existía antes de la aparición de herramientas como ChatGPT y que, en apenas tres años, ha modificado de forma significativa la producción de texto en internet.

El estudio, elaborado por investigadores de la Universidad de Stanford, el Imperial College London y el propio Internet Archive, sitúa este cambio como uno de los más rápidos en la historia de la web y documenta sus efectos en el lenguaje, el estilo y la diversidad semántica de los contenidos digitales.

El análisis se basa en muestras de páginas web recopiladas entre agosto de 2022 y mayo de 2025 mediante la Wayback Machine. A partir de estas capturas, los investigadores extrajeron el contenido textual y aplicaron herramientas de detección de texto generado por IA, seleccionando finalmente el sistema Pangram v3 por su mayor tasa de acierto. Según los resultados, hacia mediados de 2025 aproximadamente el 35% de las nuevas webs podía clasificarse como generada o asistida por inteligencia artificial.

El trabajo partía de varias hipótesis habituales sobre el impacto de la IA en los contenidos digitales, entre ellas la posible reducción de la diversidad de opiniones, el aumento de la desinformación, la homogeneización del estilo, la pérdida de referencias o la generación de textos con menor densidad semántica. Para contrastarlas, el equipo definió indicadores medibles y los comparó con la probabilidad de generación automática detectada en cada muestra mensual.

Te puede interesar:  La Universidad de Navarra incorpora simulaciones de conflicto e inteligencia artificial en la formación de periodistas tras un acuerdo con CNN

Los resultados muestran que solo dos de esas hipótesis se cumplen de forma consistente: la disminución de la diversidad semántica y el incremento de un tono más positivo en los textos. En cambio, el estudio no encuentra evidencia de un aumento significativo de afirmaciones falsas verificables ni de una reducción en la citación de fuentes. Para comprobarlo, los investigadores extrajeron afirmaciones factuales de los textos analizados y recurrieron a verificadores humanos, además de medir la densidad de enlaces salientes como indicador de referencia a fuentes externas.

El estudio también apunta a una posible limitación en la detección de desinformación, ya que el análisis se centra en afirmaciones verificables, lo que deja fuera contenidos difíciles de contrastar con herramientas actuales. Los autores señalan que este tipo de afirmaciones podría estar aumentando sin ser detectado por los métodos empleados.

Los investigadores trabajan ahora en el desarrollo de un sistema continuo de monitorización junto al Internet Archive, con el objetivo de seguir la evolución del contenido generado por IA en la web en tiempo real. El proyecto prevé incorporar mayor nivel de detalle, incluyendo análisis por tipo de sitio web o por idioma, para identificar con más precisión dónde se concentran estos cambios.

Artículos relacionados

DEJA UNA RESPUESTA

Please enter your comment!
Please enter your name here

ÚLTIMOS ARTÍCULOS

LO MÁS LEÍDO