李继刚
@lijigang_com · 5天前今天开会时,有不同意见的双方一通表达之后,双方一致表示「让 AI 看看,哪方观点更正确」。
然后就是全场盯着屏幕,模型思考了 31s,大家沉默了 31s。
我们自以为在利用工具,实则正在被工具重新定义。
不再是「我们」在讨论,而是我们背后的「AI」在讨论。我们好像变成了给「它们」提供 Context 的 血肉 API。
19
14
138
52
49
今天开会时,有不同意见的双方一通表达之后,双方一致表示「让 AI 看看,哪方观点更正确」。
然后就是全场盯着屏幕,模型思考了 31s,大家沉默了 31s。
我们自以为在利用工具,实则正在被工具重新定义。
不再是「我们」在讨论,而是我们背后的「AI」在讨论。我们好像变成了给「它们」提供 Context 的 血肉 API。
像 Claude Code 和 Manus 这样的通用代理使用的工具非常少。为什么?
通过让代理访问计算机。借助 bash 和文件系统工具,代理可以执行操作,而无需为每个任务使用专门绑定的工具。
技能还提供优于传统工具的两个主要优势:
1. Token 效率
2. 降低认知负荷
我们已经应用了这些原则,并发布了 Deep Agents CLI 的技能,现在可以使用。
以下是如何将技能与 Deep Agents 结合使用:
blog.langchain.com/using-skills-w…
Anthropic 报告称,与中国有关联的黑客利用其 Claude Code 智能代理系统,进行了他们所称的首次大规模网络攻击,且几乎没有人工干预。
独立安全研究人员对此表示异议,称目前的 AI 代理难以自主执行复杂的攻击,并且所描述的成功率(在数十次尝试中仅有少数几次成功)并不支持前所未有的能力之说。
了解更多信息,请参阅 The Batch:hubs.la/Q03VG45-0
11 月 25 日参加我们的虚拟论坛,全面了解 Gemini 3。这是一个学习如何集成并开始使用 Gemini 3 API 和工具构建的机会。
确保您的虚拟席位:cloudonair.withgoogle.com/events/gemini-…
Opus 4.5 现已集成到 Devin 的工具集中,在最困难的评估中带来了显著改进,并在 30 多分钟的编码会话中保持高效。
立即试用 Devin,亲身体验这些改进!
停止分块你的数据。
你可能使情况变得更糟。
在深入研究不同的技术之前,首先问自己最重要的问题:
为什么要进行分块?
如果你的数据已经以小的、完整的片段(如常见问题解答、产品描述或社交媒体帖子)存在,你就可以直接进入嵌入阶段了。分块实际上可能会损害这里的性能。
对于较长的文档,以下是在选择策略时要记住的内容:
• 数据结构:你正在使用高度结构化的内容(代码、JSON、Markdown)还是非结构化的叙述文本?结构感知分块保留了逻辑组织。
• 检索目标:你需要检索特定的、细粒度的的事实还是更广泛的概念性总结?这决定了你需要更小的、集中的块还是更大的、上下文丰富的块。
• 查询复杂性:简单的问题受益于有针对性的块。复杂的查询通常需要更多的周围上下文来生成准确的响应。
• 实现考量:固定大小分块等简单方法快速易用,而语义分块或基于 LLM 的分块等高级技术虽然能提供更好的质量,但也需要更多的计算资源。
💡 提示:了解如何在正确的时间向 LLM 提供正确的信息,将其连接到外部数据、实时工具和内存。
请保存本指南,并进一步阅读我们关于上下文工程的完整电子书:weaviate.io/ebooks/the-con…
我们正式将混元 3D 引擎 global 推向全球!🌎
响应社区需求并建立在 open-source 赞誉之上,混元 3D capabilities 现在在全球范围内推出,以增强所有创作者和企业的能力!This next-gen AI platform cuts commercial-grade 3D 资产生产 from days or weeks down to minutes.
🎨Multimodal Input: Instantly generates from Text-to-3D, Image-to-3D (multi-view support), or Sketch-to-3D.
💡Pro-Ready Quality: Achieves industry SOTA with our new 3D-DiT hierarchical carving model, delivering a 3x boost in modeling precision (up to 15363 ultra-HD resolution). Seamless OBJ/GLB integration with Unreal, Unity, and Blender is standard.
☁️Commercial Access: The Hunyuan 3D model API is now available on Tencent Cloud International, enabling global enterprises to integrate advanced 3D generation into workflows for game development, e-commerce, advertising, 3D printing, and more.
New creators get 20 free generations daily on the platform. Enterprise API users receive 200 free credits upon registration. Start building now!
👉 Try the creation engine: 3d.hunyuanglobal.com
🔗 Access the API: tencentcloud.com/products/ai3d
祝贺 Cerrion 获得 1800 万美元 A 轮融资!
工厂停机每年给制造商造成 1.4 万亿美元的损失(自 2019 年以来增长了 319 %)。
Cerrion 的 AI 视频代理实时监控生产线,检测质量问题、安全风险和流程偏差,并自动采取干预措施。像 Unilever 这样的制造商以及 Pepsi、Coca-Cola 和 Pfizer 的供应商发现问题解决速度提高了 50 %,停机时间和报废损失减少了一半。
axios.com/pro/supply-cha…
我们发现,最佳的 evals 几乎都来自于完全 custom datasets 和 custom metrics。
好的 evals 就像是你 app 的 PRD - 你不会使用别人的 PRD,那又为何要用别人的 evals 呢?
LangSmith 的设计初衷就是让大家能够轻松构建自己的 datasets 和 own metrics。
我们发现 metrics 比 datasets 更具通用性,因此,我们加大了对 openevals 和 LangSmith 中现成的 LLM-as-a-judge 等工具包的投入。当然,我们也尽量让这些工具包具有可定制性,因为你很可能需要定制它们。
Nothing triggers me more when eval tools promote generic metrics (i.e. Affirmation, Brevity, Levenshtein) as way to make "evals easy"
In reality, this is extremely poor data literacy sold as "best practices", in the same way that sugary cereal is marketed as healthy.
The only thing that generic metrics do is waste your time and burn tremendous engineering cycles by having you chase vanity metrics.
What works is looking at your data and define metrics tailored to failure modes you actually observe. When an eval tool promotes these front and center, I run in the other direction.
BTW I have no idea WTF affirmation score even means. This is something I saw in an IRL advertisement.
Stuffing a dashboard with a bunch of random metrics is a guaranteed way to waste everyone's time. Don't do it.
I wrote more about this here: hamel.dev/blog/posts/eva…
Also yes, this is a subtweet 🤣
The best approach I know of for reducing the risk here is to make sure that any credentials that are visible to coding agents - like AWS keys - are tied to non-production accounts with strict spending limits
That way if the credentials are stolen the blast radius is limited