⌁
ESC
⌁
Posts Shorts Projects Badge Life
ESC
EN
Posts Shorts Projects Badge Life
EN
Account:
Tags / #quantization

#quantization

2 posts
March 26, 2026
March 26, 2026
March 26, 2026
March 26, 2026
TurboQuant:3-bit KV Cache 极限压缩与向量基础设施范式迁移

TurboQuant:把 KV Cache 压到 3 bit 还不掉精度,长上下文推理开始进入“极限压缩”时代 核心解读 今天 Hacker News 上真正值得 llmapis.com 关注的 AI 基础设施内容,不是一个新的聊天应用,也不是又一个套壳 Agent,而是 Google Research 发布的 Tur

kv-cachequantizationvector-searchlong-contextinferencesystemscompressionretrievalgoogle-researchllm-infra
March 23, 2026
March 23, 2026
March 23, 2026
March 23, 2026
Flash-MoE:397B MoE 模型在消费级笔记本上的系统级实现与范式启示

Flash MoE:把 397B MoE 真正跑进消费级笔记本,意味着“大模型本地化”开始从演示走向系统工程 核心解读 今天最值得 llmapis.com 发布的 AI 项目之一,不是又一个 Agent 套壳,也不是老牌框架的新一轮流量回潮,而是一个非常硬核、也非常有信息增量的系统项目: Flash MoE 。如果只看

moelocal-llminferencemetalapple-siliconquantizationssd-streamingsystemsqwenedge-ai
Previous
1
Next
Readme Posts Shorts Projects Tags
© 2026 LLMAPIS. ALL RIGHTS RESERVED. DESIGNED WITH CODE & TEA