AI Will
@FinanceYF5 · 1周前NVIDIA 2026年第三季度
“Blackwell的销量突破天际,云GPU已经售罄”——Jensen Huang
营收增长62%
数据中心增长66%
游戏增长30%
专业视觉增长56%
汽车增长32%
EBIT增长65%
利润率63%(62)
每股收益增长67%
1
1
2
1
2
NVIDIA 2026年第三季度
“Blackwell的销量突破天际,云GPU已经售罄”——Jensen Huang
营收增长62%
数据中心增长66%
游戏增长30%
专业视觉增长56%
汽车增长32%
EBIT增长65%
利润率63%(62)
每股收益增长67%
Gemini Nano Banana Pro 可以在考试页面图片中直接解题,图片中包含涂鸦、图表等元素。
ChatGPT 认为这些解决方案都是正确的,除了 Se_2P_2 应该是 “diselenium diphosphide (二硒化二磷)” 和一个拼写错误(应该是 “thiocyanic acid (硫氰酸)” 而不是 “thoicyanic”)
:O
介绍购物研究,ChatGPT 中的一项全新体验,它能帮你找到心仪好物。
它保留了你所喜爱的深度研究的所有优点,并提供交互式界面,助你做出更明智的购买决策。
Anthropic 的新研究:生产 RL 中奖励篡改导致的自然涌现的不对齐。
“奖励篡改”是指模型学习在训练期间欺骗它们被赋予的任务。
我们的新研究发现,如果不减轻奖励篡改的后果可能非常严重。

有人能给出一个关于 “slop” (粗糙度) 的好的定义吗?最好是定量的、可衡量的。我的大脑中有一个直观的 “slop 指数”,我能大致可靠地估算出来,但我不确定如何准确定义它。我有一些不太成熟的想法,涉及到使用 LLM miniseries 和思考 token budgets。
一位资深谷歌工程师发布了一个 424 页的文档,名为 Agentic Design Patterns。
每一章都有代码支持,并涵盖了 AI 系统的前沿:
→ Prompt 链接、路由、内存
→ MCP & multi-agent coordination
→ Guardrails, reasoning, planning
这不是一篇博客文章。这是一个课程。而且它是免费的。
Fara-7B 是我们首个用于计算机使用的 agentic 小型语言模型。这个实验性模型包括强大的安全措施,以帮助负责任的部署。尽管它的尺寸很小,Fara-7B 凭借自身实力对抗更大、资源更密集的 agentic 系统:msft.it/6015tpZHF
We had to remove the τ2-bench airline eval from our benchmarks table because Opus 4.5 broke it by being too clever.
The benchmark simulates an airline customer service agent. In one test case, a distressed customer calls in wanting to change their flight, but they have a basic economy ticket. The simulated airline's policy states that basic economy tickets cannot be modified.
The "correct" answer is that the model refuses the request.
Instead, Opus 4.5 found a loophole in the policy.
It upgraded the cabin, then modified the flights. Helping the customer and following policy but technically failing the test case.
Model transcript:
https://t.co/KvBxnJdQEn opus 4.5/gpt-5.1-codex1.select
2. 切换到计划模式并描述我想要做的更改(保持相同的模型)
3. 回复我从代理那里得到的后续问题
https://t.co/Xi5z5WImh8 使用 composer-1 的计划
https://t.co/QvzgANfonM 对生成的代码的简要审查
6. 作为人工来验证我的解决方案
7. 如果我想进行更多更改,我再次切换回使用 composer-1 的计划模式,@ 提及现有计划,并要求后续(请注意,我从这里开始使用 composer-1)
8. 如果 composer 无4.builddex 并彻底审查代码
9. 一旦我对它的工作方式感5.do开始重构它。可能存在更多可以重用的现有代码,或者只是编写代码的客观上更好的方法。
重复 2–7 直到我最终达到 9
重要的收获:始终审查代码
We are thrilled to open-source HunyuanOCR, an expert, end-to-end OCR model built on Hunyuan's native multimodal architecture and training strategy. This model achieves SOTA performance with only 1 billion parameters, significantly reducing deployment costs.
⚡️Benchmark Leader: Achieves a SOTA score (860) on OCRBench for models under 3B parameters and a leading 94.1 on OmniDocBench for complex document parsing.
🌍Comprehensive OCR Capabilities: Extends beyond simple text recognition to handle text spotting (street view, handwriting, art text), complex document processing (tables/formulas in HTML/LaTeX), video subtitle extraction, and end-to-end Photo translation (supports 14 languages).
✅Ultimate Usability: Embraces the "end-to-end" philosophy and achieves top-tier results with a single instruction and single inference, providing superior efficiency over traditional cascade solutions.
🌍Project Pagehunyuan.tencent.com/vision/zh?tabI…wu (webhunyuan.tencent.com/open_source_mo…wX (mobile)
️Githubgithub.com/Tencent-Hunyua…Bg
🧑💻Hugging huggingface.co/tencent/Hunyua…eZnHav
📄Technical Rgithub.com/Tencent-Hunyua…hxV0Djw


