Un equipo de investigadores de UC Berkeley, UC San Diego, University of Washington, Zaytuna College y Google DeepMind sostiene que los grandes modelos de lenguaje no se limitan a corregir, reescribir o pulir textos humanos, sino que modifican de forma sistemática el sentido, la voz y, en algunos casos, la postura argumental de lo escrito.
La investigación plasmada en el documento How LLMs Distort Our Written Language analiza este efecto mediante un estudio con usuarios, una comparación entre revisiones humanas y revisiones hechas por modelos de IA, y un examen de reseñas académicas generadas con IA en la conferencia ICLR 2026.
El trabajo parte de una hipótesis relevante para el periodismo, la educación, la ciencia y la comunicación pública: cuando una persona usa un modelo de lenguaje para escribir o revisar un texto, la herramienta no actúa como un corrector neutro. Los autores señalan que la IA tiende a desplazar los textos hacia una zona semántica común, más homogénea, más impersonal y menos vinculada a la voz original del autor.
La primera parte del estudio consistió en un experimento con 100 participantes, reclutados a través de Prolific, a quienes se pidió escribir un ensayo sobre si el dinero conduce a la felicidad. Un grupo no pudo usar modelos de lenguaje, mientras que otro tuvo acceso a un asistente basado en gpt-4o-mini. Dentro del grupo con IA, los autores distinguieron entre quienes usaron el modelo de forma limitada (para buscar ideas, pedir orientación o recibir sugerencias) y quienes recurrieron a él de manera intensiva para generar texto.
Los resultados muestran una diferencia clara entre esos dos usos. Las personas que emplearon el modelo solo como apoyo produjeron textos más próximos a los escritos sin IA. En cambio, quienes lo utilizaron de forma intensa entregaron ensayos que se agrupaban en una zona semántica más estrecha y distinta de la ocupada por los textos humanos. Según el análisis de los investigadores, el uso intensivo de IA aumentó en un 68,9% la proporción de ensayos que adoptaban una postura neutral ante la pregunta planteada, en lugar de defender una posición a favor o en contra. Esa diferencia fue estadísticamente significativa.
El hallazgo es especialmente relevante porque los propios usuarios percibieron parte del problema. Quienes recurrieron de forma intensa al modelo afirmaron que sus textos eran menos creativos y estaban menos escritos con su propia voz. Sin embargo, no mostraron una caída equivalente en la satisfacción con el resultado final. El estudio identifica así una paradoja: los usuarios pueden quedar satisfechos con un texto que, al mismo tiempo, sienten menos propio.
El segundo bloque del paper analiza si el problema se mantiene cuando el modelo no escribe desde cero, sino que solo revisa un texto humano. Para ello, los autores utilizaron ArgRewrite-v2, un conjunto de 86 ensayos argumentativos escritos por estudiantes universitarios en 2021, antes de la expansión pública de ChatGPT. Esos textos incluían un primer borrador, comentarios de expertos humanos y una segunda versión revisada por los propios estudiantes.
Los investigadores compararon esas revisiones humanas con versiones producidas por tres modelos comerciales: gpt-5-mini, gemini-2.5-flash y claude-haiku. Los modelos recibieron los borradores originales y, en algunos casos, también los comentarios expertos. Además, se probaron diferentes instrucciones: revisión general, edición mínima, corrección gramatical, completar el texto y ampliarlo.
El resultado central es que los modelos alteraron los textos mucho más que los humanos. Las revisiones humanas introdujeron cambios más pequeños y variados, compatibles con una edición dirigida a mejorar el texto sin sustituir la voz del autor. Las revisiones generadas por IA, por el contrario, desplazaron los ensayos en una dirección semántica común. El paper destaca que incluso las instrucciones de hacer solo correcciones gramaticales o ediciones mínimas produjeron cambios relevantes en el sentido del texto.
Ese desplazamiento no fue únicamente estilístico. En ejemplos incluidos en el estudio, una postura crítica o prudente sobre los coches autónomos terminó reformulada de forma más favorable hacia esa tecnología. En otros casos, expresiones coloquiales, ejemplos personales o marcas de voz individual fueron sustituidos por formulaciones más genéricas, formales y abstractas. Los autores interpretan ese patrón como una pérdida de voz humana y una reorientación del contenido hacia modos de argumentación preferidos por los modelos.
El análisis lingüístico refuerza esa lectura. Los textos revisados por IA sustituyeron una proporción mucho mayor del vocabulario original que las revisiones humanas. En términos gramaticales, los modelos redujeron el uso de pronombres y aumentaron el uso de sustantivos, adjetivos y conjunciones coordinadas. Esa combinación desplazó los textos hacia una escritura más impersonal, más formal y menos basada en la experiencia directa.
El estudio también detecta un cambio en la carga emocional y argumentativa. Las revisiones con IA aumentaron el uso de lenguaje positivo, negativo y asociado a confianza. Al mismo tiempo, incrementaron el lenguaje analítico, lógico y estadístico. Los autores señalan que los modelos no solo suavizan o formalizan la escritura, sino que tienden a hacerla más persuasiva mediante una mezcla de tono emocional y apariencia de razonamiento estructurado.
La tercera parte del estudio traslada el análisis a un ámbito profesional: las revisiones científicas. Los autores examinaron reseñas de ICLR 2026, una conferencia relevante en aprendizaje automático. Según el paper, un análisis previo había estimado que el 21% de las reseñas de esa edición fueron generadas o editadas de forma intensa por modelos de lenguaje. Para el estudio, los investigadores compararon 18.000 reseñas de 9.000 papers, seleccionando casos en los que un mismo trabajo tenía una revisión humana y otra clasificada como generada por IA.
Los resultados sugieren que la IA no solo modifica el tono de las reseñas, sino también los criterios de evaluación. Las reseñas generadas por modelos asignaron puntuaciones un 10% más altas de media que las humanas, con una nota media de 4,43 frente a 4,13. Además, las revisiones con IA prestaron menos atención a la claridad, la relevancia y el impacto del trabajo, y más a la reproducibilidad, la escalabilidad y la aplicación práctica.
La diferencia en los criterios es uno de los puntos más delicados del estudio. Según los autores, las reseñas generadas por IA fueron un 136% más propensas a señalar la reproducibilidad como fortaleza, y también dieron más peso a la escalabilidad. Las reseñas humanas, en cambio, comentaron con mayor frecuencia aspectos como la claridad de la investigación, tanto como fortaleza como debilidad, y la relevancia del trabajo. El paper advierte de que, si este patrón se generaliza, los modelos podrían influir en qué tipo de investigación se valora y se incentiva dentro de las instituciones científicas.
El trabajo no plantea que todos los usos de modelos de lenguaje produzcan los mismos efectos. La distinción entre usuarios que emplean la IA como apoyo y usuarios que delegan en ella la generación del texto es una de las claves del estudio. Los efectos más fuertes aparecen cuando el modelo produce gran parte del contenido o cuando reescribe de manera amplia textos previamente humanos. El uso como herramienta de consulta, búsqueda de ideas o apoyo limitado mostró efectos mucho más próximos a la escritura humana sin IA.
Los autores también reconocen limitaciones. El experimento con usuarios se realizó con hablantes nativos de inglés residentes en Estados Unidos, por lo que los resultados podrían variar en otros idiomas, culturas o prácticas de escritura. Además, una parte del análisis cualitativo se apoya en clasificadores y en técnicas de “LLM como juez”, lo que introduce dependencias metodológicas que el propio paper documenta mediante sus prompts y pruebas de robustez.
El estudio deja una advertencia especialmente pertinente para redacciones, universidades, instituciones científicas y organizaciones que producen textos públicos: pedir a una IA que “mejore” un texto no equivale necesariamente a preservar la intención del autor. El modelo puede limpiar la prosa, ordenar los argumentos y hacer el resultado más fluido, pero también puede desplazar la postura, reducir la singularidad expresiva y cambiar los criterios con los que se evalúa una idea.



