AI 语音的 Her Moment: 个性化交互达到临界点
本文由 MiniMax 官方发布,重点介绍了其研发的高质量文本转语音(TTS)模型 Speech 02。该模型基于 AR Transformer 架构,核心创新在于其内在的 Zero-Shot 能力,通过一个“会学习的音色提取器”,仅凭一段参考音频即可实现超拟人且稳定的音色克隆。MiniMax Speech 02 支持 32 种语言,能够提供任意语言、口音、音色的无限组合。文章引用 Artificial Analysis 和 Hugging Face 的评测数据,声称 Speech 02 在听感和多语言表现上超越了 OpenAI 和 ElevenLabs 等模型,双双位列榜首,同时成本更低。文章也提到了模型采用 Flow-VAE 和 Flow Matching 技术优化音质,并介绍了在内容创作、小语种传播等领域的应用潜力,最后附有技术报告链接和产品体验入口。