RWKV

RWKV 是一种结合了循环神经网络（RNN）和 Transformer 两种架构特点的大型语言模型。

RWKV 将始终保持完全开源和非盈利性质。其愿景是成为 “AI领域的Linux“ ，孪生项目元智能OS 的愿景是成为 ‘AI领域的Android’ ^[1]。

项目历史编辑  编辑源代码

RWKV 项目由彭博于 2021 年发起，随着项目发展，逐渐形成了一个围绕该模型架构的开源社区。

该项目曾获得Stability AI、EleutherAI等组织和个人的算力资源支持。

2023年9月，RWKV项目被Linux基金会接纳^[2]。

RWKV模型架构经过多次迭代，主要版本包括RWKV-4（Dove）、RWKV-5（Eagle）、RWKV-6（Finch）和RWKV-7（Goose）。更早的RWKV 1/2/3被视为实验版本。

目前，像 GPT 这样最主流的 AI 模型建立在一种叫做 Transformer 的架构上。Transformer 非常强大，但它有一个根本性的“扩展”问题：

工作方式： 当它处理一个新词时，它必须“回头看”并计算与 之前所有 词语的关系（这称为“注意力”）。
问题： 这导致了“二次方计算复杂度” $O (N^{2})$ 。简单来说，如果文本长度增加10倍，计算量和内存占用可能会增加近100倍。这在处理非常长的文档或对话时，成本高得惊人。

RWKV-7 采用了一种不同的、更经典的架构，叫做 RNN（循环神经网络）。

那么，RWKV-7 的“新”在哪里呢？

RNN 的性能（即“智能”程度）并不如 Transformer。RWKV-7 通过一种新的“广义增量规则”（generalized delta rule）解决了这个问题。

您可以把这个规则想象成一个非常智能的内存更新机制：

最终，RWKV-7 实现了两全其美：它既有 RNN 的高效率，又达到了 Transformer 的高性能，论文称其在同等规模下达到了最先进的水平^[3]。

[TODO]