文章
文章介绍了腾讯混元最新开源的 AutoCodeBench,这是一个旨在全面评估大模型代码生成能力的自动化基准测试集。该测试集包含 3920 个问题,覆盖 20 种编程语言,具有高难度、实用性和多样性等特点,有效解决了现有代码基准人工标注耗时、缺乏多语言支持及难度偏低的问题。文章详细阐述了 AutoCodeBench 的核心技术,即一套全自动化 LLM-沙盒交互的工作流,通过 LLM 生成测试输入并利用沙盒获取输出,确保了测试函数的高准确性和覆盖度。此外,还开源了 AutoCodeGen、AutoCodeBench-Lite、AutoCodeBench-Complete 等关联项目,以及支持 30 多种语言的 MultiLanguageSandbox。实验结果表明,AutoCodeBench 难度高,领先模型得分均低于 55%;模型在低资源语言和多逻辑问题上表现有待提升;沙盒反馈能有效提升模型自我修正能力。该开源项目为大模型研发团队提供了一站式、易于使用的代码能力评测工具和数据生成方法,推动了行业对多语言、复杂代码生成能力的深入研究。
该文章回顾了“腾讯生肖鹅 x 混元 3D AI 创作大赛”的“成团夜”活动。比赛从 1652 件作品中选出 101 件进入决赛,分为“精品”和“Q 萌”两个赛道。成团夜采用两两 PK 模式,由腾讯内部设计专家、AI 博主、游戏主播等四位评委与 8 万观众共同投票,最终评选出 10 只“生肖鹅”成功“成团”。文章展示了这 10 只获奖作品的图片和简要描述,包括“梦回童年”、“Fast Fortune Goose”、“汉风踏云”等。这些作品将获得官方展播和 3D 打印机会,其中一只幸运鹅还有机会成为腾讯马年生肖手办量产上架官方商店。文章旨在庆祝比赛成果,并推广腾讯混元 3D AI 创作引擎,鼓励用户进行创意创作。