小互
@imxiaohu · 5天前Anthropic 发布其最强的 AI 模型 Claude Opus 4.5
🚀 提升了推理与问题解决能力,能理解含糊内容并自动修复复杂 bug
🧠 更智能的对话记忆,支持无限制对话和自动总结
💻 软件工程性能行业领先,刷新 SWE-bench 和多语言编程纪录
⚡ 执行效率与上下文管理优化,支持高效长时间运行
🔍 多模态能力增强,上下文扩展到 200K tokens
🎯 Plan Mode 升级,主动澄清需求并自动执行任务
1
0
3
3
3
Anthropic 发布其最强的 AI 模型 Claude Opus 4.5
🚀 提升了推理与问题解决能力,能理解含糊内容并自动修复复杂 bug
🧠 更智能的对话记忆,支持无限制对话和自动总结
💻 软件工程性能行业领先,刷新 SWE-bench 和多语言编程纪录
⚡ 执行效率与上下文管理优化,支持高效长时间运行
🔍 多模态能力增强,上下文扩展到 200K tokens
🎯 Plan Mode 升级,主动澄清需求并自动执行任务
体素古罗马城市
🔷Gemini 3 Pro: https://t…d33-700b-a608-919041e4bf0b.arena.site;Opus 4.5 Thinking: h…904-7e8a-b46f-73c09d5ae2c4.arena.site🔷Opu…904-7063-92f1-7bb55d99ad02.arena.siteihXvYcn
提示:
“目标
创建一个令人惊叹的,高清体素艺术的整个古罗马城市中心模拟,由一个巨大的、详细的罗马竞技场锚定。场景必须在单个 HTML 文件中以程序方式生成,具有地形、密集的城市景观和智能的布局规划。
用户控制
相机:“上帝模式”轨道控制(左键单击旋转,右键单击平移,滚动缩放)。
屏幕 UI 面板(最小,底角):
时间滑块:24 小时循环控制太阳/月亮位置,阴影方向和天空渐变(粉红色黎明 → 蓝色白天 → 橙色日落 → 星夜)。在晚上,火炬点燃整个城市,窗户在公寓楼中发光。以罗马数字显示时间。
盛大奇观按钮:
海战 (Naumachia):用海水淹没罗马竞技场。出现微型战舰并上演带有飞溅效果的海战。地下室 (Hypogeum) 淹没。
天篷 (Velarium):巨大的可伸缩天篷在整个罗马竞技场上展开,将内部投射在阴影中。
马克西穆斯竞技场赛车 (Circus Maximus Race):数十辆战车在赛道上轰鸣,尘埃云在它们身后滚滚而来。体育场人群的色彩在跳动。
凯旋游行 (Triumphal Procession):军团士兵沿着圣道 (Via Sacra),穿过君士坦丁凯旋门 (Arch of Constantine),经过罗马竞技场,进入罗马广场 (Forum)。金鹰旗帜领先。
灯光节 (Festival of Lights):数百个火炬和火盆点燃在每条街道和屋顶上。台伯河 (Tiber River) 上漂浮着灯笼。烟花在罗马竞技场上方爆发。
世界生成和地质(要求:坚固和自然)
地形:生成一个表示“罗马七座山丘 (Seven Hills of Rome)”(滚动海拔变化)和台伯河穿过地图边缘的地形网格。
坚实地面 (Solid Ground):确保地板是连续的、坚实的体素网格(没有间隙/空隙)。对地面使用不同的调色板:街道用鹅卵石,山丘用草地,竞技场地板用泥土。
植被:以程序方式散布罗马植被:意大利柏树 (Italian Cypress trees)(高/细),伞形松 (Umbrella Pines)(高树冠)和山坡上的橄榄灌木丛,以构成建筑的框架。
建筑范围 (architectural scope)(要求:高清和多样性)
罗马竞技场(中心):
高分辨率体素比例(较小的体素用于更精细的细节)。
内部细节:观众席 (Cavea)(座位层),地下室 (Hypogeum)(裸露的地下迷宫)和天篷 (Velarium)(遮阳篷结构)。
人口:密集的人群(彩色体素簇)和角斗士在中心战斗。
城市中心(罗马广场和周围环境):
在罗马竞技场周围,生成密集的当代结构阵列。
地标:包括君士坦丁凯旋门 (Arch of Constantine),维纳斯和罗马神庙以及大教堂的抽象表示。
基础设施:高架渠横跨地平线,柱廊以及遥远的马克西穆斯竞技场赛道(如果渲染预算允许)。
住宅:密集的公寓楼 (insulae)(公寓楼),赤陶屋顶填充了主要古迹之间的空隙。
城市规划逻辑 (CITY PLANNING LOGIC)(要求:无重叠)
网格与碰撞 (Grid & Collision):实施边界框分配系统。在放置建筑物之前,请检查网格以确保与现有几何体没有重叠。
分区 (Zoning):
A 区(中心):罗马竞技场(固定位置)。
B 区(罗马广场):高密度寺庙和大教堂。
C 区(郊区):住宅和山丘。
道路:生成清晰的“卡多 (Cardo)”和“迪库马努斯 (Decumanus)”风格的石头小路,连接主要建筑物;建筑物必须捕捉到这些路径。
视觉保真度 (VISUAL FIDELITY)
气氛:温暖的地中海照明 (Mediterranean lighting)。
水:台伯河 (Tiber River) 必须具有反射性或半透明的蓝色体素材料。
调色板:使用丰富的历史调色板:石灰华 (Travertine)(奶油白色),斑岩 (Porphyry)(紫色/红色),赤陶 (Terracotta)(橙色/棕色),大理石 (Marble)(白色/灰色)和金色调用于寺庙屋顶。
阴影:近似环境光遮蔽或定向照明,以使体素块具有深度。
技术规格 (TECHNICAL SPECIFICATIONS)
可交付成果:输出单个独立的 HTML 文件。
仅脱机:所有代码/资产都已嵌入。没有外部导入/ CDN。
性能:目标 ≥ 55 FPS。
至关重要:对所有体素使用实例化网格 (InstancedMesh)(Three.js 概念或 WebGL 等效项)。不要为每个块创建单独的几何体。尽可能合并几何体。
使用以编程方式生成的共享纹理集 (texture atlas)(Canvas API)进行体素颜色,以减少绘制调用。
实施护栏 (IMPLEMENTATION GUARDRAILS)
模块解析 (Module Resolution):对任何 Three.js 逻辑使用 <script type="importmap">,将“three”映射到最小化的,base64 编码的内联版本,或者在有信心的情况下编写原始 WebGL2。
范围安全 (Scope Safety):使用 const/let,避免全局命名空间污染。
内存:如果重新生成,则处理几何体/材质。
代码质量 (Code Quality):强大的错误处理。如果程序放置失败 10 次,请跳过该建筑物以防止无限循环。
最终输出说明
立即生成完整的 HTML 文件。确保比例感觉“宏伟”,并且分辨率足够高,以使罗马竞技场看起来是弯曲的而不是方形的。”
AI 生成专业的图像,但真正的商业价值在于:智能资产检索赋能品牌生成。
挑战:
您拥有数千个品牌资产,却无法找到合适的?传统的关键词搜索无法处理“显示带有我们蓝色logo的图像”或“类似上个季度的产品照片”。
解决方案?多模态 RAG 结合:
🔍 智能检索
🎨 专业级生成 (Nano Banana Pro)
✨ 可扩展的品牌一致性
即时查找您的最佳资产,组合多达 14 个参考,并在一个工作流程中生成具有完美文本渲染的品牌内容。
📚 milvus.io/blog/nano-bana…
———
👉 关注 @milvusio,获取所有与非结构化数据相关的信息!
Claude Opus 4.5 发布:最强的编码、智能体和计算机使用模型,Token 用量大降,价格是 Opus 4.1 的 1/3,SWE-bench Verified 得分首超 80 分
性能表现
· 编码能力突破:在 SWE-bench Verified 测试中达到 80.9% 的成绩,超越了 Google Gemini 3 Pro(76.2%)和 OpenAI GPT-5.1-Codex-Max(77.9%)。更引人注目的是,在 Anthropic 内部的性能工程测试中,Opus 4.5 的得分超过了所有人类应聘者。
· 智能体能力:在计算机使用测试 OSWorld 中达到 66.3% 的成绩,展现出强大的长期目标导向行为。内部测试人员反馈,Opus 4.5 能够处理 Sonnet 4.5 几周前还无法完成的任务,面对复杂的多系统 bug 时能够自主找到解决方案。
· 效率提升:这是一个重大改进。在处理长期编码任务时,Opus 4.5 使用的 token 数量减少了高达 65%,同时保持或提高了输出质量。这意味着更低的成本和更快的响应速度。
价格革命
定价为每百万输入 token 5 美元,每百万输出 token 25 美元,相比前代 Opus 4.1 的 15/75 美元,价格下降了 2/3。这使得 Opus 级别的能力首次变得可负担,可以成为日常使用的主力模型。
产品更新
多平台可用:Opus 4.5 现已在 Claude 应用、API 以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Azure 等三大云平台上线。开发者可以使用模型标识符 claude-opus-4-5-20251101 调用。
技术创新
· 混合推理:Opus 4.5 支持即时响应和扩展思考两种模式,API 用户可以通过"努力参数"(effort parameter)精细控制模型在响应上投入的计算量,在性能、延迟和成本之间取得平衡。
· 记忆改进:在长上下文操作的记忆管理方面有显著改进,特别适合智能体场景——Opus 可以作为主智能体指挥一组 Haiku 驱动的子智能体。
· 安全性增强:模型具有更强的抗提示注入攻击能力,在错位评估中表现出更低的问题行为率,是 Anthropic 迄今为止最安全的版本。
市场定位
Opus 4.5 主要面向专业软件工程师、金融分析师、咨询顾问、会计师等知识工作者,以及需要处理复杂企业任务和重度智能体工作流的场景。这是一款高端模型,适用于以往模型无法解决且性能至关重要的场景。
行业影响
这次发布正值 AI 行业竞争白热化之际。Google 的 Gemini 3 刚刚发布一周,已经引起市场震动,连 Salesforce CEO 都表示要从 ChatGPT 转向 Gemini。Opus 4.5 的推出,展现了 Anthropic 在这场竞赛中保持领先地位的决心和实力。
介绍 Claude Opus 4.5:世界领先的编码、智能代理和计算机使用模型。
Opus 4.5 代表着人工智能系统能力的一次飞跃,也预示着工作方式即将迎来重大变革。
根据 TIKR,Coatue 的持仓充满 AI 赢家,前几大仓位包括 META、MSFT、TSM。三季度最大加仓是 GOOG、APP、SNPS。
他们持有完整科技堆栈:
• 基础设施:NVDA、TSM、LRCX、GEV、CEG
• 超大规模厂商:META、AMZN、MSFT
• 应用层:APP、SHOP、TSLA
🍎🍎🍎🚨Attention Developers🚨 Google just released its most capable image model yet, bringing professional-grade creative power to everyone. Here are the three game-changing upgrades:
💡 Text-in-image consistency – Generate images with perfectly legible text in multiple languages, from short taglines to long paragraphs, with diverse fonts and calligraphy styles
🖼️ Advanced multi-input consistency – Blend up to 14 images while maintaining consistency of up to 5 people, bridging the gap between concept sketches and photorealistic final products
⭐️ Real-time infographics integration – Leverages Gemini 3 Pro's reasoning to create context-rich infographics grounded in Google Search data, transforming ideas into accurate, educational visuals
A new benchmark for intelligent, professional-grade image generation.
———
👉 Follow @milvusio, for everything related to unstructured data!
DeepMind的故事,有点像科幻小说照进现实。
Demis Hassabis,这名字你可能不熟,但他想干的事儿,绝对够大:解决智能,然后用AI解决所有问题。
听着像天方夜谭?
一开始,投资人也觉得他是疯子。
但Thiel的早期投资,加上后来被Google收购(前提是技术永不用于军事),让DeepMind有了烧钱搞研究的底气。
DeepMind怎么训练AI?
答案是:玩游戏。
Atari游戏,AI从零开始,自己学会了玩街机游戏Pong和Breakout,甚至找到了人类想不到的作弊方法。
AlphaGo,围棋,被认为是AI的“圣杯”。
和李世石那场世纪之战,尤其是“第37步”,简直是神来之笔,证明AI也能有直觉。
后来AlphaGo又干掉了柯洁,这事儿被形容为中国的“Sputnik时刻”,一下点燃了全球AI竞赛。
再往后,AlphaZero,不用人类数据,自己学会下棋。
AlphaStar,星际争霸,实时战略,信息还不透明,AI也能玩得转。
游戏玩明白了,DeepMind开始搞正事儿:科学。
“蛋白质折叠问题”,困扰了生物学家50年。
简单说,就是根据氨基酸序列,预测蛋白质的3D结构。
这事儿要是解决了,新药研发、疾病治疗,都能突飞猛进。
DeepMind参加了CASP竞赛,相当于“蛋白质折叠奥运会”。
第一次尝试,AlphaFold 1,还不错,但没彻底解决。
后来,他们把生物学知识和机器学习结合起来,搞出了AlphaFold 2,直接在CASP 14上拿了冠军。
更牛的是,DeepMind没把这技术捂着,而是免费向全球科学界公开了2亿个蛋白质结构。
这格局,respect!
故事的最后,纪录片开始反思AGI的未来,以及伦理责任。
自主武器、监控、虚假信息…
AI失控的风险,想想都后背发凉。
专家说,我们现在面临的,就像工业革命对社会的冲击一样。
AGI是不可避免的,但怎么用,怎么管,人类必须得小心再小心。
这事儿,关乎人类的未来。
AGI,可能是人类历史上最重要的事件,没有之一。
它会把时代分成“之前”和“之后”。
你准备好了吗?
youtube.com/watch?v=d95J8y…
This is insane… OpenAI Anthropic & Google just got access to petabytes of proprietary Data, The data is coming from the 17 National Laboratories, which have been hoarding experimental data for decades.
We aren't just talking about better chatbots anymore. The US Government’s new Genesis Mission is officially building autonomous scientific agents.
They call it "Closed-Loop" discovery, and it fundamentally changes the physics of how we invent things. Instead of humans using tools, it will be fully autonomous.
The workflow described in the DOE roadmap is essentially sci-fi:
• The AI Designs: It looks at the data and hypothesizes: "If we mix these alloys at 4,000 degrees, we get a superconductor."
• It sends instructions to a robotic lab (which the DOE is building) to physically mix the materials.
• The robot feeds the results back instantly. If it fails, the AI tweaks the formula.
• This cycle runs thousands of times a day, 24/7. No sleeping. No grant writing.
This is a super interesting paper on multi-agents for code patching.
Claims SOTA on the SWE-bench Verified leaderboard (79.4%).
Why this matters:
Automated bug fixing is improving fast. But there's a catch. Patches that pass existing tests often fail on edge cases. The tests weren't designed to stress the fix. The fix wasn't designed to handle unusual inputs. Both are developed in isolation.
This creates fragile patches that work in testing but break in production.
This new research introduces InfCode, a framework where tests and patches challenge each other through adversarial iteration.
The key idea: treat test generation and patch creation as opposing forces. Tests try to break patches. Patches evolve to survive. Both get stronger through conflict.
The framework operates in cycles. Generate tests designed to expose patch weaknesses. Refine patches to handle those failures. Generate harder tests. Repeat until the patch is robust.
What makes this powerful: patches earn their reliability. They don't just pass tests designed before the fix existed. They survive tests specifically crafted to break them.
Evaluated on SWE-Bench Verified, the approach shows measurable gains in patch quality and coverage. Leads to fewer regressions and more robust fixes.
Paper: arxiv.org/abs/2511.16004
$GOOGL Vs. $NVDA
The Market is mispricing the AI War.
Everyone is obsessed with "Who has the fastest chip?" (Nvidia vs. The World).
They are missing the real disruption: Google isn’t trying to beat Nvidia on speed. They are redefining the economics of AI.
Here is the reality:
1. The "Nvidia Tax" Nvidia is a merchant vendor. Every H100 sold to AWS or Azure includes a massive 70%+ margin. That cost gets passed to you.
2. Google is the only hyperscaler that doesn't need to profit on the chip. They build TPUs at manufacturing cost. They control the stack (Chip → Optical Switch → Cloud). They have zero margin stacking.
3. Training requires a Ferrari (Nvidia). But Inference (running the models) just requires a reliable semi-truck. As AI matures, 90% of spend shifts to inference.
If Google drives the cost-per-token to zero using TPUs + aggressive cloud pricing, raw speed becomes irrelevant.
Nvidia sells the generators. Google is building the electric grid.
Cheap Compute + Massive Distribution = Empire.