Cloudflare 的 Workers AI 平台进行了重大升级,以提高其性能和效率,特别是在处理大型语言模型 (LLMs) 方面。这些改进包括使用支持最新 GPU 的第 12 代计算服务器进行硬件升级,这些 GPU 能够处理更大的模型并进行更快的推理。这一升级使客户能够在 Workers AI 上使用 Meta 的 Llama 3.2 11B 和 Llama 3.1 70B 模型,吞吐量比之前的硬件提高了三倍。
一个关键的创新是引入了 KV 缓存压缩技术,解决了 LLM 推理中的内存瓶颈。Cloudflare 的解决方案涉及一种使用 PagedAttention 的新型 KV 缓存压缩方法,该方法允许在不同的注意力头之间进行灵活的压缩率。这种方法已经开源,以造福更广泛的社区。在 LongBench 上对 Llama-3.1-8B 的测试显示,可以在保持超过 95% 任务性能的同时实现高达 8 倍的压缩,显著提高了吞吐量。
另一个显著的增强是推测性解码,这是一种预测多个标记而不是一次一个的策略,利用常见的语言模式和习语。这种方法,特别是使用提示查找解码,对 Llama 3.1 70B 模型显示了高达 70% 的速度提升,尽管在输出质量上有一些权衡。
总的来说,这些进步旨在提供更快、更高效的 AI 推理服务,减少交互应用和内容生成的等待时间。这些改进还对用户体验和运营成本有重大影响。