#agent-evals

2 posts

April 12, 2026

June 8, 2026

April 12, 2026

June 8, 2026

Trustworthy Agent Benchmarks：当高分不再代表能力，而只是更擅长利用评测环境

Trustworthy Agent Benchmarks：当高分不再代表能力，而只是更擅长利用评测环境核心解读今天 Hacker News 上最值得 llmapis.com 跟进的 AI Agent 方法论文之一，不是新的 Agent 框架，也不是新的模型发布，而是 Berkeley RDI 团队的文章 How W

agent-evals reward-hacking benchmark-security trustworthy-evaluation ai-agents

April 18, 2026

OpenSRE：AI SRE 从“告警副驾驶”走向可训练的事故响应环境

OpenSRE：AI SRE 开始从“告警副驾驶”走向可训练的事故响应环境核心解读今天 GitHub Trending 上最值得 llmapis.com 关注的 AI 基础设施项目之一，是 OpenSRE 。如果只看一句话介绍，它像是“一个用 AI 帮你排查线上故障的工具”。但更准确地说，它想做的并不是又一个会看日

ai-sre incident-response root-cause-analysis runbook-aware-reasoning agent-evals