支持中国开源记忆革命,AI 终于拥有人类级长期记忆!
100M Token 上下文,4B 小模型完胜 235B RAG!EverMind 开源 MSA 炸场了
你有没有想过:人类一生记忆容量大概 2-3 亿 Token,而今天的 GPT、Claude 最多勉强撑到 200K-1M,超过就崩? RAG 堆再多向量数据库也救不了。检索永远是外挂,多跳推理一断就忘;长上下文模型训练一次就吃掉天价显存,推理还卡得要死。
EverMind-AI 一记重拳,直接把天花板砸穿了。他们开源了 MSA(Memory Sparse Attention),一个真正原生、内置、可端到端训练的长期记忆架构,把 LLM 的记忆容量直接拉到 100,000,000 Token,精度衰减居然不到 9%!
这不是又一个伪长上下文 trick,这是把海马体直接焊进 Transformer 的革命性设计。
//
MSA 到底牛在哪儿?三招秒杀所有前辈
1. 稀疏注意力 + Document-wise RoPE
传统 RoPE 一到超长就位置漂移,MSA 给每个文档独立重置位置计数,训练时 64K 就能无缝外推到 100M。复杂度从 O(n²) 变成近似 O(n),训练和推理都线性可扩展。
2. KV 缓存分层压缩 + Memory Parallel
路由键(超压缩版)常驻 GPU,完整 KV 丢在 CPU 内存里。