Jamba 1.5 发布,最长上下文,非 Transformer 架构首次成功领先
AI21 Labs,成立于 2017 年,是一家由人工智能领域的先驱创立的公司。最近,他们发布了 Jamba 1.5 系列模型,这是世界上第一个基于 Mamba 架构的生产级模型。Mamba 架构由卡内基梅隆大学和普林斯顿大学的研究人员提出,旨在解决传统 Transformer 架构在内存占用和推理速度上的限制。Jamba 1.5 系列通过结合 Transformer 和 Mamba 的优势,实现了在长上下文处理、速度和质量上的显著提升,支持多语言,并提供了市场上最长的 256K 有效上下文窗口。此外,Jamba 1.5 系列在各种基准测试中表现优异,尤其是在 Arena Hard 基准测试中超过了同类模型。此举标志着非 Transformer 架构在 AI 模型领域的重大突破,为企业和开发者提供了更高效、更强大的工具。