RedKnot – 小红书开源的长文本推理加速引擎
RedKnot是什么
RedKnot 是小红书开源的长文本 LLM 推理加速引擎,将 KV Cache 按注意力头维度解耦,离线分类为需全局重算的全局头与可局部复用的局部头,配合 SegPagedAttention 实现按头分页存储与融合变长注意力内核,避免 attn_mask 带来的内核惩罚。RedKnot 同时引入稀疏 FFN,对高注意力分数的 token 执行稠密计算,解决短上下文 FFN 瓶颈。

RedKnot的主要功能
- 头分类稀疏:离线将每个对分类为需全局重算的全局头与可局部复用的局部头,请求间稳定无需在线开销。
- 位置无关KV复用:支持相同文档片段在非前缀位置出现时复用预计算KV Cache,打破传统前缀匹配限制。
- 稀疏FFN加速:对注意力得分最高的top-k token执行稠密FFN计算,其余token走残差恒等路径,直接削减短上下文FFN瓶颈。
- SegPagedAttention存储:将KV Cache从稠密张量改为按分段的分页存储,物理上只保留每个头真正需要的token。
- 弹性稀疏恢复:浅层采用保守的局部注意力加稠密FFN保护早期残差流,深层才启用全局头重算与稀疏FFN,平衡精度与效率。
- 架构无关运行时:通过PROFILE、BUILDSTATE、SELECTVISIBLESTATE、EXECUTE四个适配器接口,统一支持GQA、MoE、MLA等不同注意力架构。
RedKnot的技术原理
- 按头解耦KV Cache:传统系统将KV Cache视为稠密[B,H,L,D]张量,RedKnot发现不同注意力头的有效上下文范围与重要性高度分化,因此沿头维度拆分缓存系统。
- 头级稀疏替代token级稀疏:token级恢复需取各头重要token的并集导致膨胀,RedKnot改为按头恢复,仅对少数全局头重算,局部头直接复用,避免精度-延迟两难。
- FFN与注意力正交优化:短上下文(2–8K)中FFN占TTFT的57–62%,注意力优化无法触及;RedKnot通过注意力信号选择重要token执行FFN,与KV稀疏形成乘法叠加收益。
- 分页存储消除mask惩罚:稠密布局加attn_mask会禁用FlashAttention快速路径带来4.9–7.6×内核惩罚,SegPagedAttention按头分页并配合融合varlen内核,全程不构造mask。
- 分层弹性策略:模型浅层局部头占比高、语义选择性弱,保守恢复防止误差传播;深层全局头比例上升、注意力更集中,稀疏策略收益最大且精度损失最小。
如何使用RedKnot
- 离线画像分类:对目标模型运行 PROFILE 接口,通过 needle-in-a-haystack 测试离线将每个 (layer, head) 对分类为全局头或局部头,生成稳定的 Head Class Map 供后续请求零开销复用。
- 预构建可复用状态:使用 BUILDSTATE 接口将常用文档片段预计算为 KV Cache,并按头维度分页存入 Global / Local KV Pool,实现位置无关的离线预构造。
- 动态状态选择:收到在线请求时,通过 SELECTVISIBLESTATE 接口根据查询语义和 Head Class Map,从缓存池中选择需复用的局部头 KV 与需重算的全局头范围。
- 融合推理执行:调用 EXECUTE 接口,全局头走完整注意力重算并写入 Online KV Cache,局部头直接复用分页 KV 走局部注意力,同时对低分 token 跳过 FFN 计算走残差路径。
- 服务化部署集成:从 GitHub 仓库 https://github.com/rednote-machine-learning/RedKnot 拉取基于 SGLang 实现的源码,按四大适配器接口规范接入现有推理服务栈可上线。
RedKnot的核心优势
- 按头解耦的粒度对齐:突破传统 token 级稠密 KV Cache 抽象,将存储、计算与恢复粒度统一到注意力头维度,匹配工作负载真实的按头稀疏结构。
- 离线画像零在线开销:全局头与局部头的分类在请求间高度稳定,仅需离线一次 profiling,在线运行时直接查表应用,不增加任何推理延迟。
- 头级恢复替代 token 级恢复:仅对约 12–15% 的全局头重算,85–88% 的局部头直接复用,避免 token 级并集膨胀导致的重算量失控,同时消除级联误差传播。
- 稀疏 FFN 正交加速:对高注意力分数的 top-k token 执行稠密 FFN,其余走残差路径,直接削减短上下文下占 TTFT 57–62% 的 FFN 瓶颈,与注意力优化形成乘法叠加收益。
RedKnot的项目地址
GitHub仓库:https://github.com/rednote-machine-learning/RedKnot
arXiv技术论文:https://arxiv.org/pdf/2606.06256
RedKnot的同类竞品对比
| 对比维度 | RedKnot | CacheBlend |
|---|---|---|
| 核心定位 | 按头解耦的 KV Cache 管理系统 | 位置无关的 KV Cache 混合复用系统 |
| 稀疏粒度 | 按注意力头(head) 解耦,全局头重算、局部头复用 | 按 Token 挑选重算子集,所有头共享同一 token 集合 |
| KV 复用范围 | 任意位置(位置无关 PIC) | 任意位置(非前缀片段) |
| 在线开销 | 零(离线一次性 head 画像,请求间复用) | 有(在线选择 token 子集并混合) |
| FFN 优化 | 稀疏 FFN(仅 top-k 重要 token 计算) | 无 |
| 存储布局 | 按头分页(SegPagedAttention),物理稀疏 | 稠密张量 + attn_mask,逻辑稀疏 |
| 内核效率 | 全程无 attn_mask,FlashAttention 快速路径 | 构造 attn_mask,SDPA 慢路径,4.9–7.6× 内核惩罚 |
| 浅层恢复 | 浅层保守用局部注意力+稠密 FFN,保护残差流 | 浅层 token 并集膨胀,需重算大量 token |
| 精度表现 | 通常 ≥ 稠密基线 F1 的 95%,长文本可反超 | 浅层误差大,精度依赖重算 token 比例 |
RedKnot的应用场景
RAG 长文档问答:拼接数万检索片段进 prompt,通过位置无关 KV 复用与头级稀疏恢复,将长文本预填充延迟从数十秒降至数秒。
编程 Agent 多轮工具调用:连续调用数十次工具并积累历史上下文,利用稀疏 FFN 直接削减短片段(2–8K)下占 TTFT 过半的 FFN 瓶颈。
长会话记忆系统:将用户记忆、工具输出与历史状态统一纳入长上下文,按头复用使单卡并发从 4 路提升至 30 路以上。
多 Agent 协作框架:多个 Agent 动态交换、重排上下文片段,位置无关 KV 复用打破”必须前缀匹配”的限制,避免重复预填充。
实时流式长文本生成:局部头直接复用近期分页 KV,全局头按需重算,在 128K 上下文下仍保持低首字延迟与高生成稳定性。
关注公众号:拾黑(shiheibook)了解更多
友情链接:
下软件就上简单下载站:https://www.jdsec.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
![四喜戴娜 这么好看的花 当然要拍照记录啦~[兔子] ](https://imgs.knowsafe.com:8087/img/aideep/2022/8/15/f99c49f73e99075a3c87e5987a9e0c17.jpg?w=250)





小云
关注网络尖刀微信公众号