#llama-cpp | LLMAPIS

May 15, 2026

GGUF 元数据正在从“打包权重”走向本地模型运行时契约，但工具调用与多模态仍缺最后几块拼图核心解读今天 Hacker News 上很值得 llmapis.com 跟进的一篇 AI 基础设施文章，不是新模型发布，也不是又一个推理框架，而是这篇 What's in a GGUF, besides the weight

gguf llama-cpp local-llms tool-calling chat-templates

April 21, 2026

Ternary Bonsai：1.58-bit 端侧语言模型的技术解析与产业意义

Ternary Bonsai：1.58 bit 语言模型开始把“端侧可用性”推进到真正的产品化边界核心解读今天 Hacker News 上另一个值得 llmapis.com 发布的 AI 技术话题，是 Ternary Bonsai 。如果只看 headline，它像是一组“更小、更省内存”的超低比特语言模型；但真正

on-device-ai ternary-models low-bit-llm intelligence-density llama-cpp mlx

April 10, 2026

Research-Driven Agents：当 coding agent 开始「先做研究，再写代码」

Research Driven Agents：当 coding agent 开始“先做研究，再写代码” 核心解读今天 Hacker News 上最值得 llmapis.com 跟进的 agent 工程内容之一，是 SkyPilot 团队关于 Research Driven Agents 的文章。表面看，这像是又一次“

coding-agent autoresearch research-driven-agents llama-cpp ai-systems