RWKV
✨寻星知识库——携手与您,寻觅群星。
更多操作
RWKV 是一种结合了循环神经网络(RNN)和 Transformer 两种架构特点的大型语言模型。
RWKV 将始终保持完全开源和非盈利性质。其愿景是成为 “AI领域的Linux“ ,孪生项目 元智能OS 的愿景是成为 ‘AI领域的Android’ [1]。
项目历史 编辑 编辑源代码
RWKV 项目由彭博于 2021 年发起,随着项目发展,逐渐形成了一个围绕该模型架构的开源社区。
该项目曾获得Stability AI、EleutherAI等组织和个人的算力资源支持。
2023年9月,RWKV项目被Linux基金会接纳[2]。
模型特点 编辑 编辑源代码
RWKV模型架构经过多次迭代,主要版本包括RWKV-4(Dove)、RWKV-5(Eagle)、RWKV-6(Finch)和RWKV-7(Goose)。更早的RWKV 1/2/3被视为实验版本。
RWKV-7 编辑 编辑源代码
核心问题:Transformer 模型的效率瓶颈 编辑 编辑源代码
目前,像 GPT 这样最主流的 AI 模型建立在一种叫做 Transformer 的架构上。Transformer 非常强大,但它有一个根本性的“扩展”问题:
- 工作方式: 当它处理一个新词时,它必须“回头看”并计算与 之前所有 词语的关系(这称为“注意力”)。
- 问题: 这导致了“二次方计算复杂度” 。简单来说,如果文本长度增加10倍,计算量和内存占用可能会增加近100倍。这在处理非常长的文档或对话时,成本高得惊人。
RWKV-7 的解决方案:更智能的 RNN 编辑 编辑源代码
RWKV-7 采用了一种不同的、更经典的架构,叫做 RNN(循环神经网络)。
- 工作方式: RNN 不会回头看所有历史记录。它只维护一个固定大小的“状态”(您可以将其视为一个内存缓冲区)。当一个新词进来时,它只更新这个“状态”。
- 优势: 这种设计效率极高。无论文本多长,它的推理时间和内存使用都是恒定的 O(1)。
那么,RWKV-7 的“新”在哪里呢?
RNN 的性能(即“智能”程度)并不如 Transformer。RWKV-7 通过一种新的“广义增量规则”(generalized delta rule)解决了这个问题。
您可以把这个规则想象成一个非常智能的内存更新机制:
- 传统 RNN: 像一个简单的缓存,新数据进来,旧数据就被冲淡或覆盖 。
- RWKV-7: 它在处理新词时,能精确地决定从“状态”内存中“移除”哪些过时的信息,然后再“添加”哪些新信息。
最终,RWKV-7 实现了两全其美:它既有 RNN 的高效率,又达到了 Transformer 的高性能,论文称其在同等规模下达到了最先进的水平[3]。
争议 编辑 编辑源代码
[TODO]