Back

原文 - Signs of introspection in large language models

主题#

Anthropic 的研究团队探索了一个问题,即 “语言模型是否能觉察、理解并报告自己的内部状态”。或者说,他们想知道模型是否能像人类那样意识到自己的思考过程。

方法#

研究团队使用了一种名为 “概念注入 (Concept Injection)” 的方法,主要分为三步:

  • 找到某种 “思维模式”,比如模型在处理全大写文本使的内部激活状态;
  • 将这种激活状态人工注入到模型中,并将其放置在一个完全不相关的环境中;
  • 询问模型是否注意到有异常或被注入的概念。

Injection

Claude Opus 4 和 4.1 在实验中展现出初步的 “自我觉察” 现象,即能在约 20% 的情况下察觉被注入的概念、在说出相关词前就意识到异常、回顾并解释自己的 “意图”,并在一定程度上主动调节内部思维状态。

结论#

Claude Opus 和 4.1 展现出有限但真实的内省能力,但该能力不稳定,若能稳定实现,内省机制可能成为提升 AI 透明度和可解释性的关键途径。

大语言模型中的自我反省现象
https://k1tyoo.ink/blog/trans/introspection-in-llm
Author K1tyoo
Published at October 31, 2025