本文宣布 Google Cloud 的 Gemini Live API 已在 Vertex AI 上全面推出,该 API 由最新的 Gemini 2.5 Flash 原生音频模型提供支持。这标志着对话式 AI 系统从传统的高延迟、多阶段架构,向统一、低延迟、实时、具备情感感知和多模态对话架构的根本性转变。Gemini Live API 提供原生音频处理、实时多模态交互、情感交互能力、主动音频(含更智能的抢话机制)、工具调用和连续记忆等高级功能,为构建下一代 AI 应用奠定了坚实基础。文章为开发者提供了两个快速入门模板(Vanilla JS 和 React)以及三个生产就绪的参考演示(实时主动顾问、多模态客户支持、实时视频游戏助理),并附带 GitHub 仓库链接。这些资源旨在帮助开发者通过单一 WebSocket 连接,快速理解和实现具有自然、拟人化界面的 AI 代理。









