文章
AIBrix 作为一款模块化、云原生的 AI 基础设施工具包,本文详细介绍了其 v0.4.0 版本的五大核心更新,旨在解决大规模大模型推理服务中的关键瓶颈。首先,通过引入 StormService 实现了 Prefill/Decode(P/D)分离,优化了资源利用率和吞吐量,并提供了前缀缓存感知的路由机制,实验数据表明 TTFT 和尾延迟均有显著改善。其次,增强了对专家并行(EP)的支持,特别是在 MoE 模型上的生产级部署能力,通过实际案例展示了预填充吞吐量提升 30%、解码吞吐量提升 3.8 倍的优异表现。文章还介绍了 KV 缓存 v1 连接器的优化,提升了与 vLLM 新架构的兼容性,并引入了 PrisDB 作为二级缓存后端,在高并发场景下显著降低 TTFT 并提高吞吐量。此外,新的 KV 事件订阅系统旨在通过分布式节点间实时同步 KV 缓存状态来提高前缀缓存命中率,尽管目前仍有优化空间。最后,AIBrix 实现了多引擎支持,允许在同一集群中同时运行 vLLM、SGLang 和 xLLM,为模型基准测试和生产部署提供了更大灵活性。这些更新共同为构建高性能、低成本的大模型推理基础设施奠定了坚实基础。
本文详细介绍了火山引擎 AI 数据湖服务 LAS 如何基于 Lance 存储格式,为智能驾驶场景构建 PB 级多模态数据湖的解决方案。面对智驾数据爆炸性增长带来的存储、计算、检索和管理挑战,该方案通过 Lance 的三大核心技术实现突破:Zero-Cost Data Evolution 支持动态标注无需重写历史数据集,降低存储成本;透明压缩技术(ZSTD)显著减少点云数据存储和网络带宽;点查询优化(列投影与轻量级 shuffle)极大提升模型训练效率和 GPU 利用率。方案已成功落地某车企客户,实现了 EB 级数据处理效率提升 3 倍,模型训练交付提速 40%,GPU 利用率高达 96%。