非Transformer架构新突破:AI 21 Labs Jamba 1.5系列模型解读

本站2024-09-14

01 Jamba 1.5模型是什么

AI 21 Labs发布了Jamba 1.5系列模型,包括Jamba 1.5 Mini和Jamba 1.5 Large两款模型。Jamba是第一个基于Mamba架构的生产级模型,Mamba是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构,被视为Transformer架构的有力挑战者。基于评估,Jamba 1.5拥有最长的有效上下文窗口,在同等大小的所有上下文长度中速度最快,质量得分超过Llama 3.1 70B和405B。

Jamba 1.5系列模型具备四个优势:

✔ 速度快,量化过程只需几分钟;

✔ 不依赖于校准,这一有时不稳定的过程通常需要几个小时或几天;

✔ 仍然可以使用 BF16 来保存大规模激活;

✔ 允许Jamba 1.5 Large适配单个8 GPU节点,同时利用其256K的完整上下文长度。

根据Arena Hard基准测试,Jamba 1.5 Mini成为同尺寸级别中最强大的型号,超越了竞争对手Claude 3 Haiku、Mixtral 8x22B和Command-R+。Jamba 1.5 Large同样超越了Claude 3 Opus、Llama 3.1 70B和Llama 3.1 405B等领先型号,在同尺寸级别中具有出色的性价比。

02 Jamba大语言模型在非Transformer架构领域的突破

2024 年 3 月,AI21 Labs宣布推出Jamba,这是世界上第一个基于Mamba架构的模型。Jamba模型是一种创新的混合架构,它结合了Transformer和Mamba模型的优势。Mamba模型是一种结构化的状态空间序列模型(SSM),它通过选择性状态空间来高效捕获序列数据中的复杂依赖关系,并且计算开销随序列长度呈线性增长,这使得它在处理长文本方面比Transformer更加高效。Jamba模型通过交错使用Transformer和Mamba层,不仅继承了Transformer在全局依赖建模上的优势,还吸收了Mamba在处理长序列时的高效性能。

Jamba模型的一个关键特点是它的混合专家(MoE)技术,这允许模型在保持高性能的同时降低资源消耗。MoE通过在模型中引入多个专家模块,选择性地激活部分专家来降低计算复杂度,从而增加模型容量而不显著增加计算需求。

在性能方面,Jamba模型在多个基准测试中展现出了优异的结果,其吞吐量是同等规模Transformer模型的三倍,同时在长上下文处理能力上也有显著提升。Jamba模型支持长达256K个token的上下文长度,这相当于大约210页文本,同时在单个GPU上能够处理高达140K个token的上下文。

Mamba解决了LLM模型的两个缺点,分别是:

1)Transformer的内存占用随上下文长度而变化,内存占用较大;

2)随着上下文的增长,推理速度变慢。

Mamba为语言模型开发开辟了新的可能性,AI21 Labs开发了相应的联合注意力和Mamba (Jamba) 架构,Jamba由Transformer、Mamba和混合专家 (MoE) 层组成,可同时优化内存、吞吐量和性能。

此次发布的Jamba 1.5系列模型基于新颖的 SSM-Transformer 架构构建,具有出色的长上下文处理能力、速度和质量——超越了同尺寸级别的竞争对手,并标志着非 Transformer 模型首次成功扩展到市场领先模型的质量和强度。

此外,Jamba模型还具有一些开发人员友好的特性,如函数调用、结构化JSON输出、文档对象消化和RAG优化等,这些特性使得Jamba在广泛的开发场景中都非常有用。

总的来说,Jamba模型的推出标志着在大型语言模型领域的一个新方向,它通过混合架构和MoE技术,在保持高性能的同时,显著提高了效率和长上下文处理能力,为AI应用开辟了新的可能性。

03 非Transformer模型的未来与发展

Transformer模型自2017年由Vaswani等人提出以来,因其自注意力机制在处理序列数据时能够有效捕捉长距离依赖关系,已成为自然语言处理(NLP)领域的主流模型之一。

许多非Transformer架构是基于Transformer的局限性提出的,比如WKV、Meta的Mega、微软亚研的 Retnet、Mamba、DeepMind团队的Hawk和Griffin 等,大多在原来的RNN基础上,针对Transformer的缺陷和局限性来做改进,因此非Transformer模型与Transformer模型相比,有其独特的优势和特点。

当前,表现较为优异的非Transformer架构模型有如下几个:

数据来源:公开信息整理,科智咨询,2024年9月

非Transformer模型的特点:

✔ 结构多样性:非Transformer模型可能采用不同的网络结构,如循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等,这些模型在特定任务上可能更适合。
✔ 计算效率:在某些情况下,非Transformer模型可能在计算效率上具有优势,尤其是在处理较短的序列或在资源受限的环境中。

✔ 特定任务优化:非Transformer模型可能针对特定任务进行优化,如语音识别、图像处理等,这些任务可能不需要Transformer模型的长距离依赖捕捉能力。

 

非Transformer模型的进步:

✔ 新的注意力机制:一些非Transformer模型探索了新的注意力机制,以提高模型的性能和效率;

✔ 模型压缩和加速:为了在移动设备和边缘设备上部署,非Transformer模型可能采用模型压缩和加速技术;

✔ 创新的网络架构:研究者们不断提出新的网络架构,以解决Transformer模型在某些任务上的局限性。

 

总而言之,非Transformer模型在一些方面提供了与Transformer模型不同的优势,在资源利用上更为高效,有助于大模型在资源受限环境下的应用,对于推动AI技术的发展具有重要意义。随着研究的不断深入,未来可能会有更多创新的非Transformer模型出现,为大模型的发展带来新的机遇和挑战。

 

推荐阅读

非Transformer架构新突破:AI 21 Labs Jamba 1.5系列模型解读

AI 21 Labs发布了基于非Transformer架构的Jamba 1.5系列模型,可与市场上其他领先模型媲美。

扬帆出海:算力中心企业东南亚与中东地区投资策略与指引

东南亚及中东地区数据中心市场的最新数据研究及市场洞察

跨越理论,深耕落地:2023年大模型应用实践洞察

2023年,大模型技术在全球范围内迎来了前所未有的发展高潮,不仅在理论研究上取得了显著突破,更在实际应用中展现出了巨大的潜力和价值。