May 9, 2026 May 9, 2026 May 9, 2026 May 9, 2026 Teaching Claude Why:AI Agent 对齐从“教模型怎么做”迈向“教模型为什么这么做” Teaching Claude Why:对齐训练正在从“教模型做对”转向“教模型理解为什么这样做才对” 核心解读 今天 Hacker News 上值得 llmapis.com 跟进的一条 AI 安全研究更新,是 Anthropic 发布的 Teaching Claude Why 。如果只看表面,这像是一篇讲对齐训练细节 alignment-trainingagentic-misalignmentconstitutional-aisafety-posttrainingprincipled-alignment