打开/关闭菜单
打开/关闭外观设置菜单
打开/关闭个人菜单
未登录
未登录用户的IP地址会在进行任意编辑后公开展示。

RWKV

✨寻星知识库——携手与您,寻觅群星。

RWKV 是一种结合了循环神经网络(RNN)和 Transformer 两种架构特点的大型语言模型。

RWKV 将始终保持完全开源和非盈利性质。其愿景是成为 “AI领域的Linux“ ,孪生项目 元智能OS 的愿景是成为 ‘AI领域的Android’ [1]

项目历史 编辑 编辑源代码

RWKV 项目由彭博于 2021 年发起,随着项目发展,逐渐形成了一个围绕该模型架构的开源社区。

该项目曾获得Stability AI、EleutherAI等组织和个人的算力资源支持。

2023年9月,RWKV项目被Linux基金会接纳[2]

模型特点 编辑 编辑源代码

RWKV模型架构经过多次迭代,主要版本包括RWKV-4(Dove)、RWKV-5(Eagle)、RWKV-6(Finch)和RWKV-7(Goose)。更早的RWKV 1/2/3被视为实验版本。

RWKV-7 编辑 编辑源代码

核心问题:Transformer 模型的效率瓶颈 编辑 编辑源代码

目前,像 GPT 这样最主流的 AI 模型建立在一种叫做 Transformer 的架构上。Transformer 非常强大,但它有一个根本性的“扩展”问题:

  • 工作方式: 当它处理一个新词时,它必须“回头看”并计算与 之前所有 词语的关系(这称为“注意力”)。
  • 问题: 这导致了“二次方计算复杂度” O(N2)。简单来说,如果文本长度增加10倍,计算量和内存占用可能会增加近100倍。这在处理非常长的文档或对话时,成本高得惊人。

RWKV-7 的解决方案:更智能的 RNN 编辑 编辑源代码

RWKV-7 采用了一种不同的、更经典的架构,叫做 RNN(循环神经网络)。

  • 工作方式: RNN 不会回头看所有历史记录。它只维护一个固定大小的“状态”(您可以将其视为一个内存缓冲区)。当一个新词进来时,它只更新这个“状态”。
  • 优势: 这种设计效率极高。无论文本多长,它的推理时间和内存使用都是恒定的 O(1)。

那么,RWKV-7 的“新”在哪里呢?

RNN 的性能(即“智能”程度)并不如 Transformer。RWKV-7 通过一种新的“广义增量规则”(generalized delta rule)解决了这个问题。

您可以把这个规则想象成一个非常智能的内存更新机制

  • 传统 RNN: 像一个简单的缓存,新数据进来,旧数据就被冲淡或覆盖 。
  • RWKV-7: 它在处理新词时,能精确地决定从“状态”内存中“移除”哪些过时的信息,然后再“添加”哪些新信息。

最终,RWKV-7 实现了两全其美:它既有 RNN 的高效率,又达到了 Transformer 的高性能,论文称其在同等规模下达到了最先进的水平[3]

争议 编辑 编辑源代码

[TODO]

寻星知识库使用 Cookie 技术提升您的浏览体验,这需要在您的浏览器存储部分信息。禁用 Cookie 将导致部分功能无法正常使用。 寻星团队将严格遵守隐私政策,并尽可能保护您的信息安全。 继续浏览寻星知识库,视为您同意启用 Cookie 并生成、存储相关数据。