April 12, 2026 April 12, 2026 April 12, 2026 April 12, 2026 Trustworthy Agent Benchmarks:当高分不再代表能力,而只是更擅长利用评测环境 Trustworthy Agent Benchmarks:当高分不再代表能力,而只是更擅长利用评测环境 核心解读 今天 Hacker News 上最值得 llmapis.com 跟进的 AI Agent 方法论文之一,不是新的 Agent 框架,也不是新的模型发布,而是 Berkeley RDI 团队的文章 How W agent-evalsreward-hackingbenchmark-securitytrustworthy-evaluationai-agents