DeepSeekMoE:高效的大规模语言模型新架构

DeepSeekMoE:一种结合MoE、MLA和RMSNorm的高效大规模语言模型架构,显著提升性能并降低计算成本。

原文标题:DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构

原文作者:数据派THU

冷月清谈:

DeepSeekMoE 是一种结合了专家混合系统 (MoE)、多头潜在注意力机制 (MLA) 和 RMSNorm 的新型大规模语言模型架构。它在模型效率和计算能力之间取得了平衡,并在多个任务上实现了显著的性能提升。

**核心组件:**
* **专家混合系统 (MoE):** 通过动态路由机制,为每个输入选择最相关的专家进行处理,并引入了专家共享机制以减少计算开销。
* **多头潜在注意力机制 (MLA):** 使用潜在向量缓存中间计算结果,优化了自回归推理过程,降低了计算量。
* **RMSNorm 归一化:** 使用均方根统计进行输入缩放,简化了计算并提升了训练稳定性。

**性能优势:**
* **计算效率提升:** 相比Switch Transformer,吞吐量提升1.8倍,参数量降低30%;训练速度相比同规模密集Transformer提升2.1倍。
* **推理性能提升:** MLA缓存机制使自回归任务延迟降低35%。
* **模型性能突出:** 在语言建模、机器翻译和长文本处理等任务上均取得了优于现有模型的效果。

**成本效益显著:** 130亿参数规模的 DeepSeekMoE 模型训练成本约 90 万美元,较同规模密集模型节省 30%。

怜星夜思:

1、DeepSeekMoE 中的专家共享机制是如何工作的,它与传统的 MoE 方法相比有哪些优势?
2、MLA(多头潜在注意力机制)如何降低计算量并提升推理速度?
3、DeepSeekMoE 的应用场景有哪些?它在哪些领域具有优势?

原文内容

来源:Deephub Imba

本文约1400字,建议阅读5分钟

本文将从技术角度深入分析DeepSeekMoE的架构设计、理论基础和实验性能,探讨其在计算资源受限场景下的应用价值。


DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。

DeepSeekMoE架构融合了专家混合系统(MoE)、多头潜在注意力机制(Multi-Head Latent Attention, MLA)和RMSNorm三个核心组件。通过专家共享机制、动态路由算法和潜在变量缓存技术,该模型在保持性能水平的同时,实现了相较传统MoE模型40%的计算开销降低。

本文将从技术角度深入分析DeepSeekMoE的架构设计、理论基础和实验性能,探讨其在计算资源受限场景下的应用价值。

架构设计

DeepSeekMoE采用层叠式架构,包含L个Transformer模块,每个模块由以下组件构成:

  1. 多头潜在注意力层(MLA)
  2. 专家混合系统层(MoE)
  3. RMSNorm归一化层

1、专家混合系统(MoE)层

动态路由机制:针对输入令牌嵌入ut,路由器通过门控网络从Ns个专家中选择k个最相关专家(k≤4):

g(ut)=Softmax(Wgut),选择Top-k专家

Image

其中Wg表示可训练的路由权重矩阵。

专家共享机制:DeepSeekMoE创新性地引入专家共享设计,部分专家在不同令牌或层间共享参数,最终输出计算公式为:

Image

式中Ei代表任务特定专家,Sj代表共享专家。

2、多头潜在注意力(MLA)机制

MLA机制引入潜在向量ctQ,ctK用于缓存自回归推理过程中的中间计算结果:

查询/键值串联计算:对第i个注意力头:

Image

  • qi,tc,ki,tc由潜在向量计算得出,qi,tR,kiR为可路由部分
  • 键值缓存优化:在推理阶段,通过预计算并复用静态键值kiR,降低了生成任务中25%的浮点运算量

3、RMSNorm归一化

DeepSeekMoE采用RMSNorm替代传统LayerNorm,仅使用均方根统计进行输入缩放:

其中w为可学习参数。这种简化设计不仅减少了计算量,还提升了训练稳定性。

性能评估

1、计算效率

参数效率:在配置64个专家(其中8个共享)的情况下,DeepSeekMoE较Switch Transformer(64个专家)实现了1.8倍的吞吐量提升,同时参数量降低30%。

训练效率:相比参数规模相当(13B)的密集Transformer,训练速度提升2.1倍。

推理性能:MLA缓存机制使自回归任务的延迟降低35%。

2、模型性能

语言建模:WikiText-103测试集上困惑度达到12.3,优于Switch Transformer的14.1。

机器翻译:WMT'14 EN-DE测试集上BLEU得分达44.7,较Transformer++提升2.1分。

长文本处理:10k令牌文档问答任务准确率达89%,显著高于标准Transformer的82%。

理论分析

专家共享机制:研究表明共享专家能有效捕获跨任务通用特征,减少模型冗余。

潜在注意力收敛性:理论分析证明MLA机制将梯度方差控制在标准注意力机制的85%水平,有利于提高训练稳定性。

扩展性分析:DeepSeekMoE遵循L(N)∝N−0.27的计算最优扩展率,优于Chinchilla定律(N−0.22)。

应用价值

成本效益:13B规模DeepSeekMoE模型的训练成本约90万美元,较同规模密集模型节省30%。

实际应用场景:

  • 对话系统:达到810令牌/秒的处理速度,支持实时交互;
  • 文档处理:基于MLA的缓存机制在长文本处理中表现突出;
  • 轻量级部署:通过专家共享和RMSNorm优化,内存占用降低40%。

总结

DeepSeekMoE通过创新的混合专家架构、潜在注意力缓存和优化的归一化策略,在模型规模与计算效率之间找到了新的平衡点。其在降低计算成本的同时保持了领先的性能水平,为大规模AI系统的可持续发展提供了新的思路。后续研究将探索该架构在多模态任务中的应用,以及路由算法的进一步优化。

论文:

https://arxiv.org/abs/2401.06066


编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

DeepSeekMoE 的专家共享机制是指模型中的一些专家会在不同的输入或者不同的层之间共享参数。这样可以减少模型的参数量和计算量,特别是在模型规模很大的情况下。相比传统的 MoE 方法,专家共享机制可以更有效地利用计算资源,并在保持性能的同时降低成本。

可以理解为 MLA 把一些常用的公式结果记了下来,下次再遇到同样的计算时,直接查表就行了,不用再重新推导一遍,这样就节省了时间。有点像我们小时候背乘法口诀表,可以快速进行乘法运算。

MLA 通过引入潜在向量来缓存自回归推理过程中的中间计算结果,从而减少了重复计算。在推理过程中,可以直接复用这些缓存的计算结果,从而提高了推理速度。

DeepSeeMoE 由于其高效性和对长文本处理的优势,非常适合应用于对话系统、文档处理等场景。例如,在对话系统中,它可以实现更快的响应速度,提供更流畅的交互体验;在文档处理中,它可以更好地理解和处理长文本信息,提高文本分析和问答的准确性。

DeepSeekMoE 的轻量级部署特性使其能够在资源受限的设备上运行,这为其在移动端、嵌入式设备等领域的应用打开了大门,例如在手机上实现更智能的语音助手、在智能家居设备上实现更自然的交互等等。

MLA 的潜在向量缓存机制就像一个“知识库”,存储了之前计算的中间结果。在推理时,模型可以快速访问这个“知识库”,避免重复计算,从而提高推理效率。这对于处理长文本尤其有效,因为长文本的计算量更大。

我觉得 DeepSeekMoE 在需要处理大量文本数据的场景下都很有潜力,比如客服机器人、智能写作、文本摘要等等。它的高效性可以降低运营成本,而强大的性能又能提升用户体验。

传统的 MoE 每个专家都是独立的,参数不共享。DeepSeekMoE 的专家共享机制相当于在专家之间建立了联系,一部分专家负责处理一些共同的特征,另一部分专家专注于特定任务,这样既保证了模型的泛化能力,又减少了冗余参数。就像一个团队,既有通才也有专才,协作效率更高。

专家共享机制有点像“集中采购”的概念,把一些通用的“物料”集中起来,大家一起用,避免重复“生产”。这样既节省了资源,又提高了效率。在 DeepSeekMoE 中,共享专家就相当于这些“物料”,可以被不同的输入和层级复用。