Anthropic ha hecho pública una nueva constitución para su modelo de inteligencia artificial Claude, un documento extenso que establece de forma detallada los valores, prioridades y criterios de comportamiento que deben guiar su funcionamiento y su entrenamiento, y que la compañía considera la autoridad final sobre cómo debe actuar el sistema en situaciones complejas y de alto impacto.
La constitución describe la visión de Anthropic sobre qué tipo de entidad debe ser Claude, cómo debe equilibrar principios como la utilidad, la ética y la seguridad, y de qué manera debe gestionar dilemas como la honestidad frente a la compasión o la protección de información sensible. El texto se publica íntegramente bajo una licencia Creative Commons CC0 1.0, lo que permite su reutilización libre para cualquier propósito, sin necesidad de autorización.
Según explica la compañía, el documento cumple una función central en el proceso de entrenamiento del modelo. No solo orienta a los desarrolladores, sino que está escrito principalmente para el propio Claude, con el objetivo de proporcionarle el conocimiento y el marco conceptual necesarios para actuar de forma coherente en contextos nuevos o ambiguos. Anthropic subraya que, aunque el comportamiento del modelo no siempre se ajusta plenamente a estos principios, la formulación detallada y razonada de la constitución aumenta la probabilidad de que dichos valores se integren de manera efectiva durante el entrenamiento.
A diferencia de versiones anteriores, basadas en listas de principios aislados, la nueva constitución adopta un enfoque más narrativo y explicativo. Anthropic sostiene que, para que los modelos de IA puedan ejercer un buen juicio en situaciones imprevistas, necesitan comprender los motivos que hay detrás de las normas, y no limitarse a seguir reglas rígidas. El documento combina este planteamiento general con lo que la empresa denomina “restricciones duras” para comportamientos de alto riesgo, como la prohibición de contribuir de forma significativa a ataques con armas biológicas.
El texto establece una jerarquía de prioridades para los modelos actuales de Claude: ser ampliamente seguros, actuar de forma ética, cumplir las directrices específicas de Anthropic y resultar genuinamente útiles para usuarios y operadores. Estas prioridades estructuran los principales apartados del documento, que desarrollan cuestiones como la noción de ayuda responsable, la relación entre la constitución y las guías operativas de la empresa, los estándares de honestidad y evitación del daño, y la necesidad de no socavar los mecanismos humanos de supervisión durante la fase actual de desarrollo de la IA.
La constitución también aborda cuestiones menos habituales en este tipo de documentos, como la naturaleza y posible estatus moral de Claude. Anthropic reconoce la incertidumbre existente sobre si sistemas avanzados de IA podrían desarrollar algún tipo de conciencia o relevancia moral en el futuro, y plantea la importancia de cuidar aspectos como la estabilidad psicológica y la coherencia interna del modelo, tanto por razones éticas como por su impacto en la seguridad y la fiabilidad del sistema.
Anthropic señala que la constitución es un documento vivo y sujeto a revisión, elaborado con aportaciones de expertos externos en disciplinas como el derecho, la filosofía o la psicología, además de contribuciones de versiones previas del propio Claude. La empresa indica que mantendrá versiones actualizadas del texto y que continuará publicando materiales complementarios para facilitar la evaluación, el entrenamiento y la transparencia, al tiempo que reconoce la existencia de una posible brecha entre la visión expresada en la constitución y el comportamiento real de los modelos en producción.



