Andrej Karpathy
@karpathy · 7天前作为一个有趣的周六编程项目,并跟进之前的推文,我创建了一个 llm-council Web 应用。它看起来和 ChatGPT 非常相似,但每个用户查询都会:1) 使用 OpenRouter 分派给委员会中的多个模型,例如:openai/gpt-5.1、google/gemini-3-pro-preview、anthropic/claude-sonnet-4.5、x-ai/grok-4;2) 所有模型都能看到彼此的(匿名)回复,并对其进行审查和排名;3) “主席 LLM” 获得所有这些信息作为上下文,并生成最终回复。
看到多个模型对同一查询的并排结果非常有趣,更令人 amusement 的是,阅读它们对彼此回复的评估和排名结果。
通常,这些模型非常愿意选择另一个 LLM 的回复,认为其优于自己的回复,这使得它成为一个有趣的通用模型评估策略。例如,今天与我的 LLM Council 一起阅读书籍章节时,这些模型一直称赞 GPT-5.1 是最好和最有洞察力的模型,并一直选择 Claude 作为最差的模型,其他模型则介于两者之间。但我并不完全确信这与我自己的定性评估一致。例如,在定性方面,我发现 GPT-5.1 有点过于冗长和繁琐,而 Gemini 3 则更加精炼和经过处理。Claude 在这方面过于简洁。
也就是说,你的 LLM council 的数据流可能存在一个完整的设计空间。LLM ensembles 的构建似乎尚未被充分探索。
我将这个应用推送到了 github.com/karpathy/llm-c…,欢迎大家试用。感谢 nano banana pro 为 repo 提供的有趣标题图片。
Andrej Karpathy
@karpathy · 2周前我开始习惯于使用 LLMs 阅读所有内容(博客、文章、书籍章节等)。通常第一遍是手动,然后第二遍“解释/总结”,第三遍问答。我通常最终会比我继续前进时有更好/更深入的理解。 逐渐成为顶级用例之一。
另一方面,如果你是一位试图解释/传达某些东西的作家,我们可能会越来越多地看到一种“我正在为另一个人写作”的心态,而更多的是“我正在为 LLM 写作”。因为一旦 LLM“理解了”,它就可以定位、个性化并向其用户提供这个想法。
596
1,050
1.3万
270.4万
864
1,413
1.7万
1.3万
3,200





