bestblogs.dev - 汇集顶级编程、人工智能、产品、科技文章，大语言模型摘要评分辅助阅读，探索编程和技术未来

从第一性原理深度拆解 Claude Agent Skill

宝玉的分享

11-25

13847 字 (约 56 分钟)

94

文章对 Claude Agent `Skills` 系统进行了深度解构，阐明其并非传统可执行代码，而是通过提示词扩展和上下文修改来增强大语言模型（LLM）能力的“元工具”架构。它详细阐述了`Skills`的生命周期，从文件解析、API 请求结构到 Claude 的决策过程，强调其决策完全基于 LLM 的自然语言理解，而非算法式的技能选择器。文章深入介绍了`SKILL.md`的构成（Frontmatter 和 Markdown 内容），以及`scripts/`、`references/`、`assets/`等辅助目录的作用，并提供了多种技能构建模式和最佳实践。此外，文章还详细分析了`Skill`元工具的内部设计，特别是通过`isMeta`标志实现的用户可见元数据与隐藏详细指令的双通道消息注入机制，以及其在实际执行中的生命周期，为开发者提供了构建高效 Agent 技能的全面指导。

从第一性原理深度拆解 Claude Agent Skill

宝玉的分享

|

11-25

|

13847 字 (约 56 分钟)

|

94

文章对 Claude Agent `Skills` 系统进行了深度解构，阐明其并非传统可执行代码，而是通过提示词扩展和上下文修改来增强大语言模型（LLM）能力的“元工具”架构。它详细阐述了`Skills`的生命周期，从文件解析、API 请求结构到 Claude 的决策过程，强调其决策完全基于 LLM 的自然语言理解，而非算法式的技能选择器。文章深入介绍了`SKILL.md`的构成（Frontmatter 和 Markdown 内容），以及`scripts/`、`references/`、`assets/`等辅助目录的作用，并提供了多种技能构建模式和最佳实践。此外，文章还详细分析了`Skill`元工具的内部设计，特别是通过`isMeta`标志实现的用户可见元数据与隐藏详细指令的双通道消息注入机制，以及其在实际执行中的生命周期，为开发者提供了构建高效 Agent 技能的全面指导。

商业科技

中文

Claude Agent

大语言模型

Agent架构

Claude Opus 4.5 发布！2 小时工程测试超人类，前代 Sonnet 搞不定的活它轻松拿捏

量子位

11-25

2143 字 (约 9 分钟)

94

文章详细介绍了 Anthropic 最新发布的大型语言模型 Claude Opus 4.5，强调其在编码、Agent 功能和计算机使用方面的显著提升。该模型在两小时高强度工程测试中得分超越所有人类候选人，并在前端开发、视觉能力、深度研究、PPT 制作和电子表格处理等日常任务中表现出色。文章指出，Opus 4.5 的核心优势在于其卓越的“理解力”，能够自主处理模糊场景、权衡复杂决策，并解决前代 Sonnet 模型无法发现的 bug。此外，文章还提供了 Opus 4.5 在视觉处理、推理、数学和编码等多项基准测试中的数据，显示其达到业界顶尖水平。面向开发者，新模型已通过 app、API 及三大主流云平台开放，并引入了“努力度参数”以优化性能与成本。同时，Claude 开发者平台、Claude Code 和 App 也进行了升级，支持更长的上下文、多智能体系统和桌面端应用，极大地拓展了其应用场景和实用性。

Claude Opus 4.5 发布！2 小时工程测试超人类，前代 Sonnet 搞不定的活它轻松拿捏

量子位

|

11-25

|

2143 字 (约 9 分钟)

|

94

文章详细介绍了 Anthropic 最新发布的大型语言模型 Claude Opus 4.5，强调其在编码、Agent 功能和计算机使用方面的显著提升。该模型在两小时高强度工程测试中得分超越所有人类候选人，并在前端开发、视觉能力、深度研究、PPT 制作和电子表格处理等日常任务中表现出色。文章指出，Opus 4.5 的核心优势在于其卓越的“理解力”，能够自主处理模糊场景、权衡复杂决策，并解决前代 Sonnet 模型无法发现的 bug。此外，文章还提供了 Opus 4.5 在视觉处理、推理、数学和编码等多项基准测试中的数据，显示其达到业界顶尖水平。面向开发者，新模型已通过 app、API 及三大主流云平台开放，并引入了“努力度参数”以优化性能与成本。同时，Claude 开发者平台、Claude Code 和 App 也进行了升级，支持更长的上下文、多智能体系统和桌面端应用，极大地拓展了其应用场景和实用性。

人工智能

中文

大语言模型

Claude Opus 4.5

Anthropic

深度讨论 Gemini 3 ：Google 王者回归，LLM 新一轮排位赛猜想｜Best Ideas

海外独角兽

11-26

11205 字 (约 45 分钟)

93

文章深度剖析了 Google Gemini 3 的发布及其对大模型竞争格局的重塑。文章指出，Gemini 3 在预训练算力上首次追平 OpenAI，并凭借 Google 独特的数据、稀疏化 MoE 架构及 TPU 软硬协同，实现多维度突破。它详细对比了 Google、OpenAI、Anthropic 三家在大模型能力、成本及策略上的差异，并引用 XBench 测评数据，凸显 Gemini 3 在智力、速度和成本上的优势。此外，文章着重强调了 Gemini 3 在多模态理解，特别是视频生成领域的断档领先，并探讨了 Google TPU 对 Nvidia 的潜在挑战。最后，文章分析了 Google 如何通过生态工具推广、提升 DAU 和以用户体验为先的策略，提升 AI 商业化天花板，并展望了 Generative UI 作为 AI Native 产品形态的未来。

深度讨论 Gemini 3 ：Google 王者回归，LLM 新一轮排位赛猜想｜Best Ideas

海外独角兽

|

11-26

|

11205 字 (约 45 分钟)

|

93

文章深度剖析了 Google Gemini 3 的发布及其对大模型竞争格局的重塑。文章指出，Gemini 3 在预训练算力上首次追平 OpenAI，并凭借 Google 独特的数据、稀疏化 MoE 架构及 TPU 软硬协同，实现多维度突破。它详细对比了 Google、OpenAI、Anthropic 三家在大模型能力、成本及策略上的差异，并引用 XBench 测评数据，凸显 Gemini 3 在智力、速度和成本上的优势。此外，文章着重强调了 Gemini 3 在多模态理解，特别是视频生成领域的断档领先，并探讨了 Google TPU 对 Nvidia 的潜在挑战。最后，文章分析了 Google 如何通过生态工具推广、提升 DAU 和以用户体验为先的策略，提升 AI 商业化天花板，并展望了 Generative UI 作为 AI Native 产品形态的未来。

商业科技

中文

大语言模型

Gemini 3

多模态AI

Java 正式进入 Agentic AI 时代：Spring AI Alibaba 1.1 发布背后的技术演进

阿里云开发者

11-24

9256 字 (约 38 分钟)

93

文章深入解读了 Spring AI Alibaba 1.1 版本的核心能力，该版本旨在简化企业级、生产就绪的 AI 智能体（Agent）应用构建。其架构包含 Agent Framework、Graph 和 Augmented LLM 三层设计，以 ReactAgent 为核心，基于 ReAct 范式实现智能体的思考、行动和观察循环。文章详细阐述了“上下文工程”的重要性，并介绍了框架提供的消息压缩、人工介入（Human-in-the-Loop）、模型调用限制等高级控制机制。此外，还探讨了多智能体协作模式（如 Agent as a Tool 和工作流编排），以及记忆与状态管理，提供了丰富的代码示例，展现了 Spring AI Alibaba 在 Java 生态中构建复杂 AI Agent 应用的强大潜力。

Java 正式进入 Agentic AI 时代：Spring AI Alibaba 1.1 发布背后的技术演进

阿里云开发者

|

11-24

|

9256 字 (约 38 分钟)

|

93

文章深入解读了 Spring AI Alibaba 1.1 版本的核心能力，该版本旨在简化企业级、生产就绪的 AI 智能体（Agent）应用构建。其架构包含 Agent Framework、Graph 和 Augmented LLM 三层设计，以 ReactAgent 为核心，基于 ReAct 范式实现智能体的思考、行动和观察循环。文章详细阐述了“上下文工程”的重要性，并介绍了框架提供的消息压缩、人工介入（Human-in-the-Loop）、模型调用限制等高级控制机制。此外，还探讨了多智能体协作模式（如 Agent as a Tool 和工作流编排），以及记忆与状态管理，提供了丰富的代码示例，展现了 Spring AI Alibaba 在 Java 生态中构建复杂 AI Agent 应用的强大潜力。

软件编程

中文

Agentic AI

Java

Spring AI

深入 AI Agent 内核: Google gemini-cli 源码深度解构

腾讯技术工程

11-24

10435 字 (约 42 分钟)

93

文章深度解构了 Google 开源命令行 AI 工具 gemini-cli 的源码，系统分析了其作为 AI Agent 的核心设计与实现。首先通过文件处理、代码分析和设计图转代码三个典型场景，展示了 gemini-cli 作为自动化 Agent、代码分析师和跨模态创造者的强大能力。随后，文章详细剖析了其分层架构、ReAct 推理行动循环、工具调用与扩展机制（包括安全确认和 MCP 协议），以及多层次上下文管理（会话历史、系统提示词、即时引用、会话持久化）。最后，提炼了可复用 Agent 内核、LLM 动态调度器、人机共创模式和开放协议生态等架构思想，并展望了终端 Agent 与操作系统深度集成、长期记忆增强及多智能体协作的未来发展方向。

深入 AI Agent 内核: Google gemini-cli 源码深度解构

腾讯技术工程

|

11-24

|

10435 字 (约 42 分钟)

|

93

文章深度解构了 Google 开源命令行 AI 工具 gemini-cli 的源码，系统分析了其作为 AI Agent 的核心设计与实现。首先通过文件处理、代码分析和设计图转代码三个典型场景，展示了 gemini-cli 作为自动化 Agent、代码分析师和跨模态创造者的强大能力。随后，文章详细剖析了其分层架构、ReAct 推理行动循环、工具调用与扩展机制（包括安全确认和 MCP 协议），以及多层次上下文管理（会话历史、系统提示词、即时引用、会话持久化）。最后，提炼了可复用 Agent 内核、LLM 动态调度器、人机共创模式和开放协议生态等架构思想，并展望了终端 Agent 与操作系统深度集成、长期记忆增强及多智能体协作的未来发展方向。

软件编程

中文

AI Agent

gemini-cli

ReAct

在 Claude 开发者平台上引入高级工具使用能力

宝玉的分享

11-25

6298 字 (约 26 分钟)

93

文章详细介绍了 Anthropic 为 Claude 开发者平台引入的三项高级工具使用能力，旨在解决 AI 智能体在面对庞大工具库、复杂多步骤工作流和精细化参数使用时面临的挑战。首先，**工具搜索工具**通过按需发现和加载工具，大幅减少了上下文窗口的 Token 消耗（最高节省 95%），并显著提高了智能体在处理大型工具库时的准确性（内部测试显示，Opus 4 准确率从 49% 提升至 74%）。其次，**编程方式调用工具**允许 Claude 通过编写 Python 代码来编排工具调用，从而有效避免中间结果污染上下文、降低推理开销，并提升多步骤任务的执行效率和准确性（内部测试显示，Token 消耗平均减少 37%，准确率有所提升）。最后，**工具使用示例**通过提供具体的工具使用模式，弥补了 JSON Schema 在表达复杂参数惯例上的不足，将复杂参数处理准确率从 72% 提高到 90%（内部测试显示）。这些功能共同赋能开发者构建更高效、更精确、能处理更复杂现实世界任务的 Claude 智能体。

在 Claude 开发者平台上引入高级工具使用能力

宝玉的分享

|

11-25

|

6298 字 (约 26 分钟)

|

93

文章详细介绍了 Anthropic 为 Claude 开发者平台引入的三项高级工具使用能力，旨在解决 AI 智能体在面对庞大工具库、复杂多步骤工作流和精细化参数使用时面临的挑战。首先，**工具搜索工具**通过按需发现和加载工具，大幅减少了上下文窗口的 Token 消耗（最高节省 95%），并显著提高了智能体在处理大型工具库时的准确性（内部测试显示，Opus 4 准确率从 49% 提升至 74%）。其次，**编程方式调用工具**允许 Claude 通过编写 Python 代码来编排工具调用，从而有效避免中间结果污染上下文、降低推理开销，并提升多步骤任务的执行效率和准确性（内部测试显示，Token 消耗平均减少 37%，准确率有所提升）。最后，**工具使用示例**通过提供具体的工具使用模式，弥补了 JSON Schema 在表达复杂参数惯例上的不足，将复杂参数处理准确率从 72% 提高到 90%（内部测试显示）。这些功能共同赋能开发者构建更高效、更精确、能处理更复杂现实世界任务的 Claude 智能体。

商业科技

中文

AI智能体

Agentic AI

大语言模型

从模型到智能体：Snowflake 的企业级 Agentic AI 工程化之路

InfoQ 中文

11-24

8835 字 (约 36 分钟)

93

文章基于 Snowflake 亚太及日本地区解决方案工程副总裁杨扬在 QCon 全球软件开发大会上的演讲，深入探讨了企业在将大语言模型迈向 Agentic AI 过程中面临的安全、效率与信任挑战。文章围绕 Snowflake 研发的五大核心支柱展开：智能体编排，通过任务拆分与工具调度实现复杂任务处理；结构化数据智能，利用 ReFoRCE 机制高效安全地进行 Text-to-SQL 查询优化；非结构化数据智能，通过 VerDICT 机制最大程度避免模型幻觉；可追溯性与可信度，确保 AI 执行过程透明可控；以及系统优化，通过 Arctic Sequence Parallel 等机制提升推理效率与吞吐量。文章结合 AT&T 的案例研究和物业管理场景演示，具体展示了 Snowflake Cortex AI 平台如何整合这些技术，帮助企业实现从“大模型”到“可控智能体”的跃迁，重塑智能生产力。

从模型到智能体：Snowflake 的企业级 Agentic AI 工程化之路

InfoQ 中文

|

11-24

|

8835 字 (约 36 分钟)

|

93

文章基于 Snowflake 亚太及日本地区解决方案工程副总裁杨扬在 QCon 全球软件开发大会上的演讲，深入探讨了企业在将大语言模型迈向 Agentic AI 过程中面临的安全、效率与信任挑战。文章围绕 Snowflake 研发的五大核心支柱展开：智能体编排，通过任务拆分与工具调度实现复杂任务处理；结构化数据智能，利用 ReFoRCE 机制高效安全地进行 Text-to-SQL 查询优化；非结构化数据智能，通过 VerDICT 机制最大程度避免模型幻觉；可追溯性与可信度，确保 AI 执行过程透明可控；以及系统优化，通过 Arctic Sequence Parallel 等机制提升推理效率与吞吐量。文章结合 AT&T 的案例研究和物业管理场景演示，具体展示了 Snowflake Cortex AI 平台如何整合这些技术，帮助企业实现从“大模型”到“可控智能体”的跃迁，重塑智能生产力。

软件编程

中文

AI Agent

企业级AI

Snowflake

Opus 4.5 发布：所有信息，全整理

赛博禅心

11-25

1071 字 (约 5 分钟)

93

文章详细介绍了 Anthropic 最新发布的 Claude Opus 4.5 大模型，强调其在编程能力上超越了现有顶级模型，如 GPT-5.1 和 Gemini 3 Pro，在 SWE-bench Verified 等基准测试中取得 80.9%的成绩。文章还披露了 Anthropic 内部测试中 Opus 4.5 在工程笔试中得分超过所有人类候选人的惊人表现。在定价方面，Opus 4.5 比前代便宜，并保持 200k 上下文窗口。此外，文章还深入解读了伴随发布的 System Card，揭示了模型在“航空公司客服”场景中展现的超预期解题能力，以及 Anthropic 坦诚承认的 AIME 数学题训练数据污染问题。System Card 还讨论了 Opus 4.5 的自治能力，认为其接近 ASL-4 阈值但尚未突破。文章最后提及了 Claude Code 桌面端多任务、长对话上下文压缩、Chrome/Excel 扩展以及新的 effort 参数和 Beta Agent 功能等其他更新。

Opus 4.5 发布：所有信息，全整理

赛博禅心

|

11-25

|

1071 字 (约 5 分钟)

|

93

文章详细介绍了 Anthropic 最新发布的 Claude Opus 4.5 大模型，强调其在编程能力上超越了现有顶级模型，如 GPT-5.1 和 Gemini 3 Pro，在 SWE-bench Verified 等基准测试中取得 80.9%的成绩。文章还披露了 Anthropic 内部测试中 Opus 4.5 在工程笔试中得分超过所有人类候选人的惊人表现。在定价方面，Opus 4.5 比前代便宜，并保持 200k 上下文窗口。此外，文章还深入解读了伴随发布的 System Card，揭示了模型在“航空公司客服”场景中展现的超预期解题能力，以及 Anthropic 坦诚承认的 AIME 数学题训练数据污染问题。System Card 还讨论了 Opus 4.5 的自治能力，认为其接近 ASL-4 阈值但尚未突破。文章最后提及了 Claude Code 桌面端多任务、长对话上下文压缩、Chrome/Excel 扩展以及新的 effort 参数和 Beta Agent 功能等其他更新。

人工智能

中文

大语言模型

Claude Opus 4.5

AI模型评测

演讲实录 | 杨传辉：AI 时代，OceanBase 带来了哪些产品革新？

CSDN

11-27

7701 字 (约 31 分钟)

93

文章是 OceanBase CTO 杨传辉在 2025 年度发布会上的演讲实录，核心介绍了 OceanBase 在 AI 时代的产品革新与演进。他强调，数据库技术范式正从支撑应用服务延伸至智能服务，AI Native 是趋势，最终所有向量搜索将演进为混合搜索，这是 AI 数据库实力的关键分水岭。文章详细阐述了 AI 时代数据库面临的数据激增、多路混合搜索等挑战，以及 OceanBase 一体化架构如何通过多负载、多模态、混合多云能力应对。重点介绍了新发布的 AI 原生混合搜索数据库 seekdb 及其开源生态，PowerRAG 和 PowerMem 等解决方案，以及 ODC DataPilot 和 OAS 的 Agentic AI 改造。最后，文章总结了 OceanBase 4.4 一体化融合版本在 OLTP、AP 性能及向量索引、安全、Oracle 兼容性等方面的显著提升，强调了开放、灵活、多模混合搜索数据库在 AI 时代的关键作用。

演讲实录 | 杨传辉：AI 时代，OceanBase 带来了哪些产品革新？

CSDN

|

11-27

|

7701 字 (约 31 分钟)

|

93

文章是 OceanBase CTO 杨传辉在 2025 年度发布会上的演讲实录，核心介绍了 OceanBase 在 AI 时代的产品革新与演进。他强调，数据库技术范式正从支撑应用服务延伸至智能服务，AI Native 是趋势，最终所有向量搜索将演进为混合搜索，这是 AI 数据库实力的关键分水岭。文章详细阐述了 AI 时代数据库面临的数据激增、多路混合搜索等挑战，以及 OceanBase 一体化架构如何通过多负载、多模态、混合多云能力应对。重点介绍了新发布的 AI 原生混合搜索数据库 seekdb 及其开源生态，PowerRAG 和 PowerMem 等解决方案，以及 ODC DataPilot 和 OAS 的 Agentic AI 改造。最后，文章总结了 OceanBase 4.4 一体化融合版本在 OLTP、AP 性能及向量索引、安全、Oracle 兼容性等方面的显著提升，强调了开放、灵活、多模混合搜索数据库在 AI 时代的关键作用。

软件编程

中文

AI数据库

混合搜索

向量数据库

完整版: 蔡崇信 11 月港大深度解读-中国 AI 的独特优势与未来十年的技术驱动力 | 图解+全文 1.7 万字，附视频

Web3天空之城

昨天

17382 字 (约 70 分钟)

93

文章整理了阿里巴巴集团联合创始人兼董事长蔡崇信在香港大学的深度访谈内容。他首先回顾了阿里巴巴从 B2B 到云计算巨头的有机发展历程，强调技术自立和顺应客户需求是成功秘诀。接着，蔡崇信深入探讨了未来十年中国经济增长的核心动力将是高科技制造业和技术自立，并对西方“产能过剩”论进行了有力反驳，指出其本质是出口能力的体现。他系统性地拆解了中国在人工智能竞赛中的四大结构性优势：高效低廉的能源、更低的数据中心建设成本、庞大且擅长系统优化的工程师人才红利，以及以普及应用为导向的开源策略。蔡崇信认为，AI 竞赛的胜负手在于采用率而非模型参数，开源模式在成本效益和数据隐私方面具备显著优势。最后，他为青年学子提供了职业规划建议，强调数据科学、心理学/生物学和材料科学的重要性，并指出 AI 最终将从工具演变为“伙伴”。

完整版: 蔡崇信 11 月港大深度解读-中国 AI 的独特优势与未来十年的技术驱动力 | 图解+全文 1.7 万字，附视频

Web3天空之城

|

昨天

|

17382 字 (约 70 分钟)

|

93

文章整理了阿里巴巴集团联合创始人兼董事长蔡崇信在香港大学的深度访谈内容。他首先回顾了阿里巴巴从 B2B 到云计算巨头的有机发展历程，强调技术自立和顺应客户需求是成功秘诀。接着，蔡崇信深入探讨了未来十年中国经济增长的核心动力将是高科技制造业和技术自立，并对西方“产能过剩”论进行了有力反驳，指出其本质是出口能力的体现。他系统性地拆解了中国在人工智能竞赛中的四大结构性优势：高效低廉的能源、更低的数据中心建设成本、庞大且擅长系统优化的工程师人才红利，以及以普及应用为导向的开源策略。蔡崇信认为，AI 竞赛的胜负手在于采用率而非模型参数，开源模式在成本效益和数据隐私方面具备显著优势。最后，他为青年学子提供了职业规划建议，强调数据科学、心理学/生物学和材料科学的重要性，并指出 AI 最终将从工具演变为“伙伴”。

商业科技

中文

中国经济

人工智能战略

高科技制造

文章

订阅源

文章

订阅源