文章详细介绍了 MiniMax 海螺团队在 AI 视觉生成领域的最新突破:首次开源了视觉分词器预训练框架 VTP,并在该领域确认了 Scaling Law 的存在。此前普遍认为,视觉分词器(第一阶段)的投入无法有效提升生成模型(第二阶段)的效果。海螺团队通过创新的三管齐下训练方案,将传统的图像重建任务与图文对比学习(CLIP)和自监督学习(SSL)相结合,使得视觉分词器不仅能重建细节,更具备深度语义理解能力。实验结果表明,VTP 在算力、参数和数据三个维度上均展现显著的 Scaling Law 特性,打破了行业固有的“悖论”,证明理解力是驱动视觉生成质量提升的关键因素。这项技术不仅对视觉生成具有重要意义,也为整个多模态 AI 领域提供了新的启发。