Simon Willison
@simonw · 1周前在我看来,十一月即将推出的 GPT-5.2 和 Opus 4.5 确实堪称一个拐点——这些模型将以渐进改善的方式,突破某个无形的能力阈值,使得众多此前难以解决的编码问题突然迎刃而解。
137
201
3,167
547
515
在我看来,十一月即将推出的 GPT-5.2 和 Opus 4.5 确实堪称一个拐点——这些模型将以渐进改善的方式,突破某个无形的能力阈值,使得众多此前难以解决的编码问题突然迎刃而解。
A lot of great Mac apps aren’t on the App Store and usually need to be downloaded from websites or GitHub.
Found a nice app called Applite - it lets you search and install apps in one click, discover good software, and uninstall cleanly. A pretty smooth all-in-one experience.
> brew install --cask applite
困扰年轻作家的最大问题之一,是他们认为写作必须听起来很花哨——仿佛不能仅仅像口语一样。但实际上,越是像口语,写作就越好。
如果说 2025 年是 AI 代理的元年,那么 2026 年将是 Agent Harness 发展的重点。Agent Harness 是一种围绕 AI 模型构建的基础设施,专门用于管理那些长期运行的任务,它本身并非 AI 代理。
它在比现有代理框架更高的层面运作。Agent Harness 提供预设提示、针对工具调用(含 人在环)的规范化处理、生命周期钩子,以及像规划、文件系统访问或子代理管理等开箱即用的能力。
随着基准测试日益复杂,我们必须弥合基准测试结果与实际用户体验之间的差距。Agent Harness 之所以至关重要,有以下三个关键原因:
- **验证实际进展**:它使用户能够轻松测试和比较最新模型在其特定用例和约束条件下的表现。
- **赋能用户体验**:如果没有 Agent Harness,用户的体验可能远低于模型的实际潜能。
- **通过真实反馈持续优化**:一个共享且稳定的环境(即 Harness)能创建反馈循环,研究人员得以根据实际用户采纳情况进行迭代和改进(“爬山式”优化)。
我们正朝着训练和推理环境融合的方向发展。在此过程中,一个新的瓶颈浮现:上下文持久性。Agent Harness 将成为解决“模型漂移”问题的主要工具。
阅读我的完整博客 🔽
通往 AGI 的路上,我关注的下一个重要里程碑是:人工有能智能(ACI)。一个智能体能否合法地将 10 万美元变成 100 万美元?对我而言,这称得上是现代图灵测试。
如今,面向孩子们的 iPad 游戏充斥着广告,内容空洞乏味。但 AI 现在能为我们提供无限量的优质游戏资产和代码。
我非常乐意订阅一个由这类游戏组成的平台:它们能以引人入胜的方式教授孩子们数学、逻辑和语言,并且,关键的是,教授 AI 和提示工程。
培养未来一代的最佳方式,是让他们从小具备 AI 素养。这样,他们才能理解技术的可能性,以及它如何塑造身边的世界。
利用 FunctionGemma 270M,您可以构建完全离线的移动助手。这个演示展示了如何解析“为明天的午餐创建一个日历事件”或“添加到联系人”这样的自然语言命令,以直接在设备端执行操作系统指令。
我认为你可能未完全理解核心思想。
- JEPA 的基本前提是,在输入空间中进行重建/预测训练是不合理(或适得其反)的。细节几乎总是无法预测的。因此,预测必须在表示空间中进行,在那里无法预测的细节被消除。
- JEPA 的主要问题是如何防止坍塌(在没有重建损失的情况下)。有两类方法:
(1) EMA:使用目标编码器中的权重,这些权重是其他编码器中权重(I-JEPA、V-JEPA、DINO、BYOL )的指数移动平均(EMA)。
(2) Infomax:使用一种正则化器,试图最大化表示的信息内容(例如,在一个批次上)。为此有两组方法:
(2a) 样本对比方法:它们希望使每个表示向量与其他向量不同(孪生网络 Siamese nets、DrLIM、SimCLR 等)。它们在高维度下往往效果不佳,需要大批次,以及困难负样本挖掘。
(2b) 维度对比方法:它们希望使每个变量彼此独立(Barlow Twins、VICReg、SIGReg/ LeJEPA、MMCR、MCR2...)。
总结一下:
A. 重建/预测的自监督学习(SSL)不适用于高维、连续、有噪声的数据。
B. EMA 存在缺陷:没有被最小化的损失函数,需要权重共享......
C. 样本对比信息最大化不适用于高维度。
D. 我看好 SIGReg/LeJEPA 这样的维度对比方法。
为什么我们不能用 AI 享受乐趣?
我们不会指责人们用笔记本电脑看电视或玩游戏。
但不知何故,当涉及到 AI 时,我们却要面对无休止的道德说教,认为它只能用于医疗保健、机器人和编程之类的事情……
使用 Opus 4.5 在 Cursor 中制作了我自己的 Sim City ✨
最酷的部分?向游戏中添加了自己的等距资产,这样角色就可以访问 @a16z SF office。
我使用了 @ghosttyped 的开源仓库,并找到了一个建筑创建的工作流 👇
now open source!!
go build your own city sim, tycoon game, 90s RTS, 4X game… whatever you want
let a thousand isometric strategy games bloom