主题#
Anthropic 的研究团队探索了一个问题,即 “语言模型是否能觉察、理解并报告自己的内部状态”。或者说,他们想知道模型是否能像人类那样意识到自己的思考过程。
方法#
研究团队使用了一种名为 “概念注入 (Concept Injection)” 的方法,主要分为三步:
- 找到某种 “思维模式”,比如模型在处理全大写文本使的内部激活状态;
- 将这种激活状态人工注入到模型中,并将其放置在一个完全不相关的环境中;
- 询问模型是否注意到有异常或被注入的概念。

Claude Opus 4 和 4.1 在实验中展现出初步的 “自我觉察” 现象,即能在约 20% 的情况下察觉被注入的概念、在说出相关词前就意识到异常、回顾并解释自己的 “意图”,并在一定程度上主动调节内部思维状态。
结论#
Claude Opus 和 4.1 展现出有限但真实的内省能力,但该能力不稳定,若能稳定实现,内省机制可能成为提升 AI 透明度和可解释性的关键途径。