非Transformer架构新突破：AI 21 Labs Jamba 1.5系列模型解读

本站2024-09-14

01 Jamba 1.5模型是什么

AI 21 Labs发布了Jamba 1.5系列模型，包括Jamba 1.5 Mini和Jamba 1.5 Large两款模型。Jamba是第一个基于Mamba架构的生产级模型，Mamba是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为Transformer架构的有力挑战者。基于评估，Jamba 1.5拥有最长的有效上下文窗口，在同等大小的所有上下文长度中速度最快，质量得分超过Llama 3.1 70B和405B。

Jamba 1.5系列模型具备四个优势：

✔ 速度快，量化过程只需几分钟；

✔ 不依赖于校准，这一有时不稳定的过程通常需要几个小时或几天；

✔ 仍然可以使用 BF16 来保存大规模激活；

✔ 允许Jamba 1.5 Large适配单个8 GPU节点，同时利用其256K的完整上下文长度。

根据Arena Hard基准测试，Jamba 1.5 Mini成为同尺寸级别中最强大的型号，超越了竞争对手Claude 3 Haiku、Mixtral 8x22B和Command-R+。Jamba 1.5 Large同样超越了Claude 3 Opus、Llama 3.1 70B和Llama 3.1 405B等领先型号，在同尺寸级别中具有出色的性价比。

02 Jamba大语言模型在非Transformer架构领域的突破

2024 年 3 月，AI21 Labs宣布推出Jamba，这是世界上第一个基于Mamba架构的模型。Jamba模型是一种创新的混合架构，它结合了Transformer和Mamba模型的优势。Mamba模型是一种结构化的状态空间序列模型（SSM），它通过选择性状态空间来高效捕获序列数据中的复杂依赖关系，并且计算开销随序列长度呈线性增长，这使得它在处理长文本方面比Transformer更加高效。Jamba模型通过交错使用Transformer和Mamba层，不仅继承了Transformer在全局依赖建模上的优势，还吸收了Mamba在处理长序列时的高效性能。

Jamba模型的一个关键特点是它的混合专家（MoE）技术，这允许模型在保持高性能的同时降低资源消耗。MoE通过在模型中引入多个专家模块，选择性地激活部分专家来降低计算复杂度，从而增加模型容量而不显著增加计算需求。

在性能方面，Jamba模型在多个基准测试中展现出了优异的结果，其吞吐量是同等规模Transformer模型的三倍，同时在长上下文处理能力上也有显著提升。Jamba模型支持长达256K个token的上下文长度，这相当于大约210页文本，同时在单个GPU上能够处理高达140K个token的上下文。

Mamba解决了LLM模型的两个缺点，分别是：

1）Transformer的内存占用随上下文长度而变化，内存占用较大；

2）随着上下文的增长，推理速度变慢。

Mamba为语言模型开发开辟了新的可能性，AI21 Labs开发了相应的联合注意力和Mamba (Jamba) 架构，Jamba由Transformer、Mamba和混合专家 (MoE) 层组成，可同时优化内存、吞吐量和性能。

此次发布的Jamba 1.5系列模型基于新颖的 SSM-Transformer 架构构建，具有出色的长上下文处理能力、速度和质量——超越了同尺寸级别的竞争对手，并标志着非 Transformer 模型首次成功扩展到市场领先模型的质量和强度。

此外，Jamba模型还具有一些开发人员友好的特性，如函数调用、结构化JSON输出、文档对象消化和RAG优化等，这些特性使得Jamba在广泛的开发场景中都非常有用。

总的来说，Jamba模型的推出标志着在大型语言模型领域的一个新方向，它通过混合架构和MoE技术，在保持高性能的同时，显著提高了效率和长上下文处理能力，为AI应用开辟了新的可能性。

03 非Transformer模型的未来与发展

Transformer模型自2017年由Vaswani等人提出以来，因其自注意力机制在处理序列数据时能够有效捕捉长距离依赖关系，已成为自然语言处理（NLP）领域的主流模型之一。

许多非Transformer架构是基于Transformer的局限性提出的，比如WKV、Meta的Mega、微软亚研的 Retnet、Mamba、DeepMind团队的Hawk和Griffin 等，大多在原来的RNN基础上，针对Transformer的缺陷和局限性来做改进，因此非Transformer模型与Transformer模型相比，有其独特的优势和特点。

当前，表现较为优异的非Transformer架构模型有如下几个：

数据来源：公开信息整理，科智咨询，2024年9月

非Transformer模型的特点：

✔ 结构多样性：非Transformer模型可能采用不同的网络结构，如循环神经网络（RNN）、长短期记忆网络（LSTM）、卷积神经网络（CNN）等，这些模型在特定任务上可能更适合。

✔ 计算效率：在某些情况下，非Transformer模型可能在计算效率上具有优势，尤其是在处理较短的序列或在资源受限的环境中。

✔ 特定任务优化：非Transformer模型可能针对特定任务进行优化，如语音识别、图像处理等，这些任务可能不需要Transformer模型的长距离依赖捕捉能力。

非Transformer模型的进步：

✔ 新的注意力机制：一些非Transformer模型探索了新的注意力机制，以提高模型的性能和效率；

✔ 模型压缩和加速：为了在移动设备和边缘设备上部署，非Transformer模型可能采用模型压缩和加速技术；

✔ 创新的网络架构：研究者们不断提出新的网络架构，以解决Transformer模型在某些任务上的局限性。

总而言之，非Transformer模型在一些方面提供了与Transformer模型不同的优势，在资源利用上更为高效，有助于大模型在资源受限环境下的应用，对于推动AI技术的发展具有重要意义。随着研究的不断深入，未来可能会有更多创新的非Transformer模型出现，为大模型的发展带来新的机遇和挑战。

非Transformer架构新突破：AI 21 Labs Jamba 1.5系列模型解读

推荐阅读

中国智能算力租赁市场全景解读：现状、竞争格局与未来发展

2024年全球数据中心市场洞察：AI驱动下的规模跃升与格局演化

《中国智算中心市场发展研究报告》：算力政策与AI技术双重驱动下的供需两旺