文章详细介绍了 MIT 博士团队创立的 Lemon Slice 公司及其获得 1050 万美元融资的交互式语音 AI 视频模型 Lemon Slice-2。该模型颠覆了传统 AI 头像的局限性,通过“零样本”学习方式,仅需一张静态图片即可实时生成具有逼真表情、手势和全身动作的视频头像,有效克服了“恐怖谷效应”。文章深入分析了 Lemon Slice-2 的技术突破,包括其作为 200 亿参数视频扩散 Transformer 模型,能够在单个 GPU 上以 20 帧/秒的速度实时生成视频流,并支持无限长度视频生成且无误差累积。作者还展望了该技术在教育、电商、医疗、企业培训等领域的广阔应用前景,并探讨了 LLM 成熟、算力提升和市场需求明确等技术爆发背景,认为其预示着人机交互新范式。