AK
@_akhaliq · 2d agoTest-time scaling of diffusions with flow maps
00:40
2
10
42
15
10
Test-time scaling of diffusions with flow maps
Heading to NeurIPS 2025 in San Diego? Check out the full list of papers from Stanford AI Lab - covering agents, diffusion models, robotics, reasoning benchmarks, and more. See you there! 🌴ai.stanford.edu/blog/neurips-2…9
BlockVid
Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
OpenAI 如何构建大规模 AI 自动化代码审查系统?
核心挑战:代码量爆炸 vs. 人力瓶颈
随着 AI(如 GPT-5-Codex)生成的代码呈指数级增长,人类无法逐行审查。如果单纯依赖 AI 生成而不加验证,漏洞和 Bug 的风险将难以控制。因此,OpenAI 提出必须建立一个 自动化的代码审查智能体 作为防线。
关键策略:精准度优于覆盖率 (反直觉!)
· 通常逻辑:我们会希望 AI 找出 所有 潜在问题。
· OpenAI 的发现:在实际工程中,如果 AI 像个“碎嘴婆”一样报告大量无关紧要或错误的琐碎问题,开发者会直接弃用工具。
· 解决方案:为了赢得开发者的信任,该系统被设计为“宁缺毋滥”,优先保证高信噪比,只在确信是重要 Bug 时才发出警报,即便这以此会漏掉一些小问题为代价。
技术突破:全仓库上下文与工具使用
· 早期的验证模型通常只看代码的差异,缺乏上下文。
· 新的审查智能体具备了全仓库的视野,并且拥有执行代码的能力。这意味着它不仅是“看”代码,还能结合整个项目的依赖关系进行逻辑推演,从而大幅提高了审查的准确性。
经济学视角:验证比生成更便宜
· 文章提出了一个有趣的观察:生成正确的代码需要大量的计算资源,但验证代码通常只需要很少的资源。
· 即便是用较小的算力预算,审查智能体也能有效地捕捉到大部分由强大模型生成的错误。这为大规模部署提供了经济基础。
实际应用与警示
· 实战效果:该系统已在 OpenAI 内部及 GitHub 上大规模使用。数据显示,约 53% 的 AI 审查意见被开发者采纳并进行了代码修改,证明了其建议的高价值。
· 过度依赖风险:AI 审查只是“辅助”而非“替代”。团队必须警惕将“AI 没报错”等同于“绝对安全”的心理懈怠。
阅读报告
alignment.openai.com/scaling-code-v…
New from our alignment blog: How we trained Codex models to provide high-signal code reviews
We break down our research approach, the tradeoffs, and what we’ve learned from deploying code review at scale.
alignment.openai.com/scaling-code-v…
We have just released Weaviate Java client v6, featuring a completely revamped syntax and development experience.
𝗪𝗵𝗮𝘁'𝘀 𝗖𝗵𝗮𝗻𝗴𝗲𝗱:
🎯 𝗙𝗹𝘂𝗲𝗻𝘁 𝗔𝗣𝗜 𝘄𝗶𝘁𝗵 𝗟𝗮𝗺𝗯𝗱𝗮 𝗦𝘆𝗻𝘁𝗮𝘅 - Modern lambda syntax that makes your code more readable and maintainable, while keeping builder patterns available when you need them:
// New v6 API: Query with semantic search
var response = movies.query.nearText(
"mind-bending movie",
options -> options.limit(1).returnProperties("title", "description")
);
⚡ 𝗴𝗥𝗣𝗖 𝗦𝘂𝗽𝗽𝗼𝗿𝘁 - Faster communication between your application and Weaviate, especially important for production workloads with high query volumes.
🛡️ 𝗧𝘆𝗽𝗲𝗱 𝗚𝗿𝗮𝗽𝗵𝗤𝗟 𝗥𝗲𝘀𝗽𝗼𝗻𝘀𝗲𝘀 - Automatic deserialization into Java objects means compile-time type safety and no more manual JSON parsing.
💯 Many more security, performance and UX improvements across the board.
If you're new to Weaviate, this is a great time to try it out. If you have existing apps using the old Java client (v5), we recommend using our documentation to migrate to the v6 client. It’s a weaviate.io/blog/weaviate-…promise they are worth it 🔥
Read the blog here: https://t.co/tfmrnX4hXK
Projects create a permanent, reusable workspace for your recurring tasks.
• Set a Master Instruction: Define your core directive once, and it applies to every session.
• Build a Knowledge Base: Upload brand guidelines, templates, and key files that persist.
Every session starts with the right context, instantly. No more starting from scratch.
文章中说的任务清单就算是全局context的一种,只是全局context一样没法太长,不然执行任务的上下文窗口就不够用了
x.com/stevenlu1729/s…
agents之间的主动交互协作的能力是目前制约复杂软件任务的一个主要障碍。git这类工具可以提供一个全局共享的context,一定程度上缓解了这个局面,但是agents还是需要像人类工程师一样具有积极沟通的意识才能确保自己的context维持在最新,能有效的协作。但实际上我们看到的是LLM经常对未知做假设而不是努力去澄清,基于假设写出的代码就会很快让整个项目的协作陷入泥潭。我们也在探索破局之法,或许是RL。
GitHub Copilot 如何通过「精简工具集」变得更智能
开发者都会遇到的痛点:工具过多导致响应迟缓和决策低效。通过引入“虚拟工具”、嵌入引导路由和自适应聚类等创新,Github Copilot 的智能体能在保持强大功能的同时,显著提升速度和准确性。
核心理念:少即是多,智能体需精炼工具
GitHub Copilot Chat 依赖数百个工具(如代码库分析、Azure 服务调用)来辅助开发者完成任务,例如修复 bug 或合并代码。这些工具通过 MCP 访问,但问题在于:工具堆积过多会让智能体“负担过重”,类似于大脑被无关信息淹没,导致推理变慢、错误率上升。基准测试(如 SWE-Lancer 和 SWEbench-Verified)显示,完整工具集下智能体的任务成功率反而下降 2-5 个百分点,因为模型容易误用工具或忽略关键指令。
解决方案的核心是“用更少的工具变得更聪明”:不是简单裁剪功能,而是通过智能路由和分组,让智能体只在需要时调用相关工具。这就好比从杂乱的工具箱中抽屉化管理——先看目录,再取具体物品,避免盲目翻找。
技术实现:嵌入引导与动态选择
更新引入了两大关键机制,确保工具选择精准高效:
· 嵌入引导工具路由(Embedding-Guided Tool Routing):利用查询的向量嵌入与工具的语义表示进行匹配,预先筛选出最相关的工具候选。这比传统 LLM 逐一评估快得多。在基准测试中,该方法实现了 94.5% 的工具使用覆盖率,远高于 LLM 选择的 87.5% 或静态列表的 69.0%。例如,对于“修复这个 bug 并合并到 dev 分支”的查询,系统会直接从嵌入空间中锁定“合并工具”,跳过无关的搜索或文档工具,减少了探索性调用。
· 自适应工具聚类(Adaptive Tool Clustering):基于 Copilot 内部嵌入模型,通过余弦相似度将相似工具自动分组,形成“虚拟工具”——这些虚拟工具像目录一样,提供概述而非完整列表。聚类后,一个小型模型生成每个组的摘要,便于缓存和快速访问。博客展示了 GitHub MCP 工具的嵌入图示:如 create_pending_pull_request_review 与 get_issue_comments 等工具自然聚为一簇。
此外,GitHub 将默认的 40 个内置工具精简至 13 个核心工具(覆盖仓库解析、文件编辑、搜索和终端操作),其余非核心工具归入四个虚拟类别:Jupyter Notebook 工具、网络交互工具、VS Code 工作区工具和测试工具。这种“无损动态选择”确保了功能完整性,同时将首 token 时间缩短 190 毫秒,最终响应延迟平均降低 400 毫秒。
益处:更快、更准的用户体验
· 性能跃升:在线 A/B 测试显示,任务成功率提升 2-5 个百分点,工具覆盖率提高 27.5%。智能体能更专注地推理,减少缓存未命中和 API 限额问题。
· 效率优化:操作成本降低(缓存嵌入和摘要更廉价),开发者感受到更流畅的交互——无需等待“加载中”转圈。
· 实际示例:在处理复杂查询时,系统能从历史上下文推断意图,避免逐一检查工具组,提升了整体可靠性。
未来展望:向长上下文智能体演进
将工具选择视为“长上下文推理”的雏形:未来,智能体将记住工具使用历史、从对话中推断意图,并规划多步行动,甚至跨会话协作。结合嵌入、记忆机制和强化学习,Copilot 可能扩展到数千轮交互,支持动态学习工具使用。
这个更新体现了 AI 开发工具的演进趋势:从“全能”向“专注”转型,GitHub 通过数据驱动的优化证明,精简并非妥协,而是通往更强大智能的捷径。
博客地址:
github.blog/ai-and-ml/gith…
Giving an agent too many tools doesn’t always make it smarter. Sometimes it just makes it slower. 🐢
So we trimmed GitHub Copilot's default toolset from 40 down to 13.
The result? ⚡️ 400ms faster responses 📈 2-5% higher success rates
Here's how we optimized the system. ⬇github.blog/ai-and-ml/gith…Pt
my prompt
x.com/dotey/status/1…
🍌 nano banana pro prompt (with gemini)
Dynamically generate a current weather card based on a given city name.
--- prompt ---
Present a clear, 45° top-down view of a vertical (9:16) isometric miniature 3D cartoon scene, highlighting iconic landmarks centered in the composition to showcase precise and delicate modeling.
The scene features soft, refined textures with realistic PBR materials and gentle, lifelike lighting and shadow effects. Weather elements are creatively integrated into the urban architecture, establishing a dynamic interaction between the city's landscape and atmospheric conditions, creating an immersive weather ambiance.
Use a clean, unified composition with minimalistic aesthetics and a soft, solid-colored background that highlights the main content. The overall visual style is fresh and soothing.
Display a prominent weather icon at the top-center, with the date (x-small text) and temperature range (medium text) beneath it. The city name (large text) is positioned directly above the weather icon. The weather information has no background and can subtly overlap with the buildings.
The text should match the input city's native language.
Please retrieve current weather conditions for the specified city before rendering.
City name:【上海】




Fix vulnerable dependencies and strengthen your supply chain with @jfrog Security Agent. 🐸 Try it out to:
• identify vulnerable packages
• provide recommended upgrade versions
• patch dependency files directly
• generate a clear, security-aware pull request summary