May 8, 2026 May 8, 2026 May 8, 2026 May 8, 2026 Natural Language Autoencoders(NLA):用自然语言翻译模型内部激活的可解释性新范式 Natural Language Autoencoders:可解释性研究第一次把“读激活”推进到“直接把模型内部想法翻译成人话” 核心解读 今天最值得 llmapis.com 跟进的一条 AI 研究消息,不是一个新模型参数规模刷新,也不是又一个 Agent 框架,而是 Anthropic 发布的 Natural Lan interpretabilitymodel-auditingalignmentsafety-evalshidden-reasoning