该文章深入阐述了在 AI 技术(尤其是大模型)快速发展背景下,淘宝闪购如何构建一套面向业务落地的 AI 产品评测体系与平台。文章首先分析了传统评测方法在 AI 产品研发模式、技术演进速度和 Agent 链路复杂度面前面临的挑战,指出 AI 产品评测需从“验收式测试”转变为“共创式评测”。随后,文章详细介绍了评测体系的构建,包括 AI 产品评价维度(业务目标、产品效果、性能体验、安全合规、服务成本)、评测方式与策略(端到端 vs 分层评测、有参考答案 vs 无参考答案),以及通过“按变更分级 + 标签选集”实现效率与覆盖度量。文章还探讨了线上效果评估的闭环机制,并展示了平台架构、能力及实际应用成果。最后,对平台未来在多模态评测、可视化标注工作台和开放“评测能力插件市场”方面的规划进行了展望。