Google DeepMind 推出了增强型 Gemini 2.5 Flash Native Audio 模型,旨在提升实时语音助手和实时端到端语音翻译的体验。此次更新显著提升了模型在函数调用、指令遵循和多轮对话方面的性能,使其能够更准确地触发外部功能,可靠地执行复杂指令,并进行更流畅的交互。在 ComplexFuncBench Audio 基准测试中,它以 71.5% 的得分处于领先地位。新模型已整合到 Google AI Studio、Vertex AI、Gemini Live 和 Search Live 中,这有助于促进更自然语音交互应用的开发。此外,Gemini 引入了实时语音翻译功能,支持 70 多种语言和 2000 种语言对。该功能即使在嘈杂环境中也能保留说话者的语调、节奏和音高,实现了无缝的多语言通信,目前正在谷歌翻译应用中进行 Beta 测试。这些进步为全球通信和客户服务开辟了新的可能性。
人工智能
英文
Gemini 2.5 Flash Native Audio
语音 AI
实时翻译
