El Washington Post, en colaboración con el Centro Sanghani de Análisis de Datos y Artificiales de Virginia Tech, está desarrollando una herramienta de respuestas impulsada por inteligencia artificial, basada en su propia cobertura periodística. El desarrollo del proyecto se está llevando a cabo en instalaciones en Arlington y Falls Church, aunque el desarrollo se trasladará al Innovation Campus de Virginia, que abrirá el año que viene.
Sam Han, jefe de datos e IA en el periódico, explicó a Technical.ly, que la tecnología se está diseñando para comprender la intención en las preguntas de los usuarios, en lugar de depender solo de palabras clave como lo hacen otras plataformas de IA.
El Post, señala Han, quiere liderar la era de los bots informativos alimentados por IA y las nuevas formas en que las personas encuentran y consumen información.
“La gente se está acostumbrando a hacer preguntas, [obtener] respuestas directamente, en lugar de leer y comprender”, dijo Han. “Esa es la tendencia que estamos observando. Y queremos estar en esa transformación (o, en cierto modo, revolución) para liderar como empresa de tecnología de medios. Queremos prepararnos técnicamente para poder ofrecer la mejor experiencia mediática a los lectores”.
La tecnología considerará suposiciones implícitas y el contexto. Han dio el ejemplo de alguien que pregunta quién ganó el Super Bowl: por lo general, preguntan sobre el campeonato más reciente, no sobre años anteriores.
Para preguntas como estas, entre otras, se utilizará una técnica llamada generación aumentada de recuperación (Retrieval-Augmented Generation, RAG por sus siglas en inglés) para proporcionar respuestas que tengan más probabilidades de responder realmente a la pregunta de alguien. Han señaló que la RAG interpreta y permite que un sistema de IA generativa acceda a información nueva más allá de sus datos de entrenamiento inicial, en este caso, la cobertura actualizada del periódico.
¿Qué es la RAG?
La Generación Aumentada por Recuperación es una técnica avanzada que optimiza la salida de modelos de lenguaje de gran tamaño (LLM), permitiéndoles hacer referencia a bases de conocimientos externas y autorizadas antes de generar una respuesta. Esto extiende las capacidades de los LLM, que normalmente son entrenados con enormes cantidades de datos, para generar respuestas más precisas y específicas sin necesidad de reentrenamiento.
Esta tecnología es crucial porque responde a varios problemas inherentes a los LLM, como la generación de información falsa o desactualizada y la dependencia de fuentes no autorizadas. La RAG permite a los LLM acceder a información actualizada y verificada durante la generación de respuestas, lo que mejora significativamente la relevancia y precisión de las respuestas en contextos específicos.
La RAG es especialmente beneficiosa porque es más rentable que reentrenar completamente un LLM con nuevos datos. Además, garantiza que la información proporcionada sea la más actual, aumentando la confianza de los usuarios en la tecnología. Para los desarrolladores, ofrece mayor control sobre la salida del texto generado, permitiéndoles adaptar las fuentes de información a necesidades cambiantes y asegurar respuestas adecuadas y precisas.
En términos operativos, la RAG funciona mediante un proceso donde se utiliza la entrada del usuario para buscar y recuperar información relevante de una base de datos actualizada antes de proporcionarla al LLM, que luego genera una respuesta informada y contextualmente adecuada. Esto se logra a través de técnicas de ingeniería de peticiones y actualizaciones periódicas de los datos externos para mantener la precisión y relevancia.
Además, el proyecto de The Washington Post también empleará tecnología de modelos de lenguaje grandes multimodales (LLM), lo que significa que la herramienta de IA no solo extraerá información de textos, sino que también podrá integrar información encontrada en productos de reportajes en audio o vídeo.
Sam Han subrayó: “El objetivo es acumular activos tecnológicos para nosotros en este nuevo mundo, donde la IA de modelos de lenguaje grande juega un papel crucial en proporcionar un consumo de información conversacional”.
Aunque aún no hay un cronograma específico de cuándo los lectores pueden probar esta función, dos estudiantes de doctorado ya han comenzado la investigación y desarrollo para construir las capacidades de búsqueda de la herramienta, supervisados por tres profesores de Virginia Tech.