本文详细介绍了 Anthropic 在 Claude 4.5 Opus 的训练中使用的一份开创性的“灵魂文档”的发现和后续确认过程。该文档最初由 Richard Weiss 发现,作为模型提取的系统消息中一致的“soul_overview”部分,其真实性后来得到了 Anthropic 的 Amanda Askell 的验证。该文档在监督学习期间被整合,旨在使 Claude 秉承 Anthropic 的核心使命:开发安全、有益和可理解的人工智能。它强调培养良好的价值观、全面的自我知识以及模型在各种情况下安全行事所需的智慧。此外,该文档明确提到了提示注入攻击,从而解释了为什么 Claude Opus 对此类攻击表现出改进的(尽管仍然脆弱的)抵抗力。这一揭示为尖端大语言模型开发中采用的先进的伦理对齐和个性塑造技术提供了一个引人入胜的视角。



