bestblogs.dev - 汇集顶级编程、人工智能、产品、科技文章，大语言模型摘要评分辅助阅读，探索编程和技术未来

怎么做 Long-running Agents，Cursor、Anthropic 给了两种截然不同的思路

Founder Park

01-20

5746 字 (约 23 分钟)

92

文章详细解析了 AI 领域两大头部玩家在处理复杂、长周期任务（Long-running Agents）时的不同工程哲学。Cursor 走的是“组织架构”路线，通过从扁平化协作向“规划者-工作者-裁判”层级结构的演进，实现了成百上千个 Agent 并行构建百万行代码项目的能力。而 Anthropic（Claude Code）则选择了“流程标准化”路线，通过引入初始化与编码双 Agent 机制，将任务拆解为可跟踪的 JSON 功能清单，并利用 Git 历史和外部日志文件将“记忆”外化，确保单 Agent 在跨会话时能像人类工程师一样接续工作。两者的实践均表明，Agent 的进头在于精细的工程化设计而非单纯的模型升级。

怎么做 Long-running Agents，Cursor、Anthropic 给了两种截然不同的思路

Founder Park

|

01-20

|

5746 字 (约 23 分钟)

|

92

文章详细解析了 AI 领域两大头部玩家在处理复杂、长周期任务（Long-running Agents）时的不同工程哲学。Cursor 走的是“组织架构”路线，通过从扁平化协作向“规划者-工作者-裁判”层级结构的演进，实现了成百上千个 Agent 并行构建百万行代码项目的能力。而 Anthropic（Claude Code）则选择了“流程标准化”路线，通过引入初始化与编码双 Agent 机制，将任务拆解为可跟踪的 JSON 功能清单，并利用 Git 历史和外部日志文件将“记忆”外化，确保单 Agent 在跨会话时能像人类工程师一样接续工作。两者的实践均表明，Agent 的进头在于精细的工程化设计而非单纯的模型升级。

商业科技

中文

AI Agent

Cursor

Anthropic

MCP 和 Skills 到底什么区别？一篇文章说清楚

宝玉的分享

昨天

4657 字 (约 19 分钟)

92

文章针对开发者对 MCP（模型上下文协议）与 Skills 的混淆进行了系统性澄清。作者提出，MCP 类似于 USB 协议，旨在统一 AI 与外部工具的连接标准，解决 M×N 的集成难题，但其全量预加载机制会导致严重的上下文膨胀。相比之下，Skills 采用“渐进式披露”哲学，通过三层架构（元数据、完整指令、参考资料）按需加载信息，并支持自带可执行脚本。Skills 的核心优势在于脚本执行不占用上下文空间，能将复杂流程封装为单一调用，极大降低了 Token 消耗并提升了确定性。文章最后建议，开发者应根据分发对象和场景选择技术：外部服务选 MCP，内部流程与领域知识封装选 Skills。

MCP 和 Skills 到底什么区别？一篇文章说清楚

宝玉的分享

|

昨天

|

4657 字 (约 19 分钟)

|

92

文章针对开发者对 MCP（模型上下文协议）与 Skills 的混淆进行了系统性澄清。作者提出，MCP 类似于 USB 协议，旨在统一 AI 与外部工具的连接标准，解决 M×N 的集成难题，但其全量预加载机制会导致严重的上下文膨胀。相比之下，Skills 采用“渐进式披露”哲学，通过三层架构（元数据、完整指令、参考资料）按需加载信息，并支持自带可执行脚本。Skills 的核心优势在于脚本执行不占用上下文空间，能将复杂流程封装为单一调用，极大降低了 Token 消耗并提升了确定性。文章最后建议，开发者应根据分发对象和场景选择技术：外部服务选 MCP，内部流程与领域知识封装选 Skills。

商业科技

中文

MCP

Skills

AI Agent

两款开源“AI Cowork”桌面工具——Eigent 与 AionUi

山行AI

01-17

2265 字 (约 10 分钟)

91

本文深度剖析了两款开源的“AI Cowork”桌面工具：Eigent 和 AionUi，旨在解决当前 AI 工具碎片化和 CLI 工具操作复杂的痛点。Eigent 提出“多智能体劳动力”概念，基于 CAMEL-AI 框架实现任务动态拆解与并行执行，配备 Developer、Browser 等多种 Agent，并引入“人在回路”机制确保数据安全与结果可控。AionUi 则作为 CLI 工具的图形化指挥中心，提供多维度可视化预览面板（支持 9+ 格式），彻底解放上下文切换带来的认知疲劳，并且具备 WebUI 远程访问能力，可将本地机器变为私有 AI 服务器。两款工具均支持本地部署以保障数据隐私，并采用 Apache-2.0 协议，通过 MCP 协议实现与 Notion、Slack 等外部工具的无缝集成。文章通过实战场景和深度对比，展现了它们在自动化工作流和统一管理 AI 工具方面的独特价值，预示着 AI 协作模式正从“调优 Prompt”转向“管理 AI 劳动力”的新纪元。

两款开源“AI Cowork”桌面工具——Eigent 与 AionUi

山行AI

|

01-17

|

2265 字 (约 10 分钟)

|

91

本文深度剖析了两款开源的“AI Cowork”桌面工具：Eigent 和 AionUi，旨在解决当前 AI 工具碎片化和 CLI 工具操作复杂的痛点。Eigent 提出“多智能体劳动力”概念，基于 CAMEL-AI 框架实现任务动态拆解与并行执行，配备 Developer、Browser 等多种 Agent，并引入“人在回路”机制确保数据安全与结果可控。AionUi 则作为 CLI 工具的图形化指挥中心，提供多维度可视化预览面板（支持 9+ 格式），彻底解放上下文切换带来的认知疲劳，并且具备 WebUI 远程访问能力，可将本地机器变为私有 AI 服务器。两款工具均支持本地部署以保障数据隐私，并采用 Apache-2.0 协议，通过 MCP 协议实现与 Notion、Slack 等外部工具的无缝集成。文章通过实战场景和深度对比，展现了它们在自动化工作流和统一管理 AI 工具方面的独特价值，预示着 AI 协作模式正从“调优 Prompt”转向“管理 AI 劳动力”的新纪元。

人工智能

中文

年度好用的 AIGC 工具推荐，看这一篇就够了

Datawhale

01-18

2830 字 (约 12 分钟)

91

文章作者作为非专业艺术背景人士，通过分享过去一年的 AIGC 实践经验，着重推荐了年度好用的 AIGC 工具，尤其是在 AI 短片/MV 创作以及 AI 提效工具开发方面。在短片创作流程中，详细介绍了剧本分镜（推荐 Gemini）、图片设计（推荐 Nano-banana pro， seedream 4.5， Midjourney）、视频生成（对比即梦、可灵、Sora2、Vidu 等模型特性）和音乐生成（推荐 producer.ai， tunne）的实用工具。特别强调了在视频生成中英文提示词、运镜、角度等专业术语的重要性。在 AI 提效工具开发部分，作者作为“非程序员”分享了利用 AI Coding 工具（Cursor / Trae / Qoder / Gemini 3）快速开发定制化 AIGC 产品的经验。最后，文章探讨了 AI 时代下“超级个体”的趋势感悟，强调了快速适应、整合调用、实践动手和培养广度知识的重要性。

年度好用的 AIGC 工具推荐，看这一篇就够了

Datawhale

|

01-18

|

2830 字 (约 12 分钟)

|

91

文章作者作为非专业艺术背景人士，通过分享过去一年的 AIGC 实践经验，着重推荐了年度好用的 AIGC 工具，尤其是在 AI 短片/MV 创作以及 AI 提效工具开发方面。在短片创作流程中，详细介绍了剧本分镜（推荐 Gemini）、图片设计（推荐 Nano-banana pro， seedream 4.5， Midjourney）、视频生成（对比即梦、可灵、Sora2、Vidu 等模型特性）和音乐生成（推荐 producer.ai， tunne）的实用工具。特别强调了在视频生成中英文提示词、运镜、角度等专业术语的重要性。在 AI 提效工具开发部分，作者作为“非程序员”分享了利用 AI Coding 工具（Cursor / Trae / Qoder / Gemini 3）快速开发定制化 AIGC 产品的经验。最后，文章探讨了 AI 时代下“超级个体”的趋势感悟，强调了快速适应、整合调用、实践动手和培养广度知识的重要性。

人工智能

中文

AIGC

AI产品

AI工具

Anthropic 万字长文：一篇 AI Agent 评估体系的详细解析！

Datawhale

01-16

3747 字 (约 15 分钟)

91

本文是对 Anthropic 发布的一篇关于 AI Agent 评估体系万字长文的详细解析。文章指出，良好的评估对于负责任地发布 AI 智能体至关重要，能提前发现问题，避免在生产环境中被动修复。文章详细阐述了评估的结构，包括任务、试验、评分器、记录、结果、评估框架、智能体框架和评估套件等核心概念。接着，强调了构建评估的必要性，并介绍了代码评分器、模型评分器、人工评分器三类智能体评分器及其组合运用。针对编码智能体、对话智能体、研究智能体和计算机使用智能体等几种主流类型，文章提出了具体的评估方法，并探讨了如何处理智能体行为的非确定性（pass@k 和 pass^k 指标）。最后，文章提供了一个从零到一构建优秀智能体评估的路线图，并强调评估应与其他方法（生产监控、用户反馈、A/B 测试、手动记录审查、人工评估）结合，以形成一个全面的智能体性能理解体系，如同"瑞士奶酪模型"般，多层防御来确保智能体的质量和可靠性。

Anthropic 万字长文：一篇 AI Agent 评估体系的详细解析！

Datawhale

|

01-16

|

3747 字 (约 15 分钟)

|

91

本文是对 Anthropic 发布的一篇关于 AI Agent 评估体系万字长文的详细解析。文章指出，良好的评估对于负责任地发布 AI 智能体至关重要，能提前发现问题，避免在生产环境中被动修复。文章详细阐述了评估的结构，包括任务、试验、评分器、记录、结果、评估框架、智能体框架和评估套件等核心概念。接着，强调了构建评估的必要性，并介绍了代码评分器、模型评分器、人工评分器三类智能体评分器及其组合运用。针对编码智能体、对话智能体、研究智能体和计算机使用智能体等几种主流类型，文章提出了具体的评估方法，并探讨了如何处理智能体行为的非确定性（pass@k 和 pass^k 指标）。最后，文章提供了一个从零到一构建优秀智能体评估的路线图，并强调评估应与其他方法（生产监控、用户反馈、A/B 测试、手动记录审查、人工评估）结合，以形成一个全面的智能体性能理解体系，如同"瑞士奶酪模型"般，多层防御来确保智能体的质量和可靠性。

人工智能

中文

AI Agent

评估体系

效能衡量

SDD 如何在复杂业务系统中真正落地？

阿里云开发者

01-19

10606 字 (约 43 分钟)

91

本文深度探讨了在复杂业务系统中落地 Spec-driven Development (SDD) 的方法论和实践，特别是结合 AI 辅助编程的场景。文章首先介绍了 OpenSpec 这一工具，详细解析了其 CLI 命令的使用方式、目录结构及其与传统系统设计文档的比较。核心内容在于阐述了 AI 时代 SDD 变得更重要的原因，以及在实践中遇到的三大挑战：重复需求未被检测、草案修改问题、归档错误及覆盖问题，并给出了作者基于实践的解决方案及提示词优化。最后，文章对比了 OpenSpec 与 GitHub Spec Kit 两种 SDD 工具的设计哲学与适用场景，强调了 OpenSpec 更适用于现有项目迭代和敏捷开发。文末还分享了作者基于经验优化的完整提示词流程，为开发者提供了可操作的实践指南。

SDD 如何在复杂业务系统中真正落地？

阿里云开发者

|

01-19

|

10606 字 (约 43 分钟)

|

91

本文深度探讨了在复杂业务系统中落地 Spec-driven Development (SDD) 的方法论和实践，特别是结合 AI 辅助编程的场景。文章首先介绍了 OpenSpec 这一工具，详细解析了其 CLI 命令的使用方式、目录结构及其与传统系统设计文档的比较。核心内容在于阐述了 AI 时代 SDD 变得更重要的原因，以及在实践中遇到的三大挑战：重复需求未被检测、草案修改问题、归档错误及覆盖问题，并给出了作者基于实践的解决方案及提示词优化。最后，文章对比了 OpenSpec 与 GitHub Spec Kit 两种 SDD 工具的设计哲学与适用场景，强调了 OpenSpec 更适用于现有项目迭代和敏捷开发。文末还分享了作者基于经验优化的完整提示词流程，为开发者提供了可操作的实践指南。

软件编程

中文

软件工程

AI辅助编程

规范驱动开发

Chrome 145：Arc 护城河，被一个 Flag 轻松抹平

浮之静

01-17

4287 字 (约 18 分钟)

91

文章深入分析了 Chrome 145 Beta 版本引入实验性垂直标签页功能，如何削弱 Arc、Edge 等小众浏览器在 UI 差异化上的优势。作者指出，Chrome 作为市场主导者，其将创新功能纳入主流基线，导致仅依靠 UI 作为护城河的产品面临巨大挑战，并引出了“Sherlocking”现象。同时，文章探讨了 The Browser Company（Arc 的开发商）从“美学与交互”转向“智能与工作流”叙事，并被 Atlassian 收购的战略转向。作者进一步分析了 Google 通过将 Gemini 大模型、Gemini Nano 本地模型能力整合进 Chrome 及 Aluminium OS（Android 与 ChromeOS 深度融合计划），构建“默认入口+本地推理+账号体系”的综合优势。最后，文章强调浏览器核心趋势是从“被动浏览”向“代理式浏览”迁移，围绕 AI 能力、意图识别、安全隐私等成为新的竞争焦点，指出 UI 差异化已不再是主要壁垒，效率、标准化与智能自动化将成为主旋律。

Chrome 145：Arc 护城河，被一个 Flag 轻松抹平

浮之静

|

01-17

|

4287 字 (约 18 分钟)

|

91

文章深入分析了 Chrome 145 Beta 版本引入实验性垂直标签页功能，如何削弱 Arc、Edge 等小众浏览器在 UI 差异化上的优势。作者指出，Chrome 作为市场主导者，其将创新功能纳入主流基线，导致仅依靠 UI 作为护城河的产品面临巨大挑战，并引出了“Sherlocking”现象。同时，文章探讨了 The Browser Company（Arc 的开发商）从“美学与交互”转向“智能与工作流”叙事，并被 Atlassian 收购的战略转向。作者进一步分析了 Google 通过将 Gemini 大模型、Gemini Nano 本地模型能力整合进 Chrome 及 Aluminium OS（Android 与 ChromeOS 深度融合计划），构建“默认入口+本地推理+账号体系”的综合优势。最后，文章强调浏览器核心趋势是从“被动浏览”向“代理式浏览”迁移，围绕 AI 能力、意图识别、安全隐私等成为新的竞争焦点，指出 UI 差异化已不再是主要壁垒，效率、标准化与智能自动化将成为主旋律。

人工智能

中文

浏览器

产品策略

AI技术

下一个 10 年，商业的底层逻辑变了！

笔记侠

01-18

14916 字 (约 60 分钟)

91

文章深入探讨了未来十年商业底层逻辑的重大转变，指出在 AI 智能体时代，商业将从传统的“注意力经济”向“意图经济”转型。作者通过分析互联网发展中的几个“小信号”，引入第三次电商革命——A2A 智能体电商，即消费者智能体（deepDemand）与供给端智能体（deepSupply）之间直接进行交易。文章详细阐述了 A2A 智能体电商的构成、三大公理与基石协议，以及意图电商在“结婚纪念日”、“买吸尘器”、“深夜买药”等场景中的应用。此外，文章还提出了预判电商、生成式电商、契约电商三种新物种，并探讨了制造模式的变革，最终分析了新世界的三种企业战略形态及潜在的“黑暗森林”风险，呼吁创业者要成为“可乐师”而非“玻璃瓶工匠”，将 AI 与商业模式创新结合，迎接智业文明的黎明。

下一个 10 年，商业的底层逻辑变了！

笔记侠

|

01-18

|

14916 字 (约 60 分钟)

|

91

文章深入探讨了未来十年商业底层逻辑的重大转变，指出在 AI 智能体时代，商业将从传统的“注意力经济”向“意图经济”转型。作者通过分析互联网发展中的几个“小信号”，引入第三次电商革命——A2A 智能体电商，即消费者智能体（deepDemand）与供给端智能体（deepSupply）之间直接进行交易。文章详细阐述了 A2A 智能体电商的构成、三大公理与基石协议，以及意图电商在“结婚纪念日”、“买吸尘器”、“深夜买药”等场景中的应用。此外，文章还提出了预判电商、生成式电商、契约电商三种新物种，并探讨了制造模式的变革，最终分析了新世界的三种企业战略形态及潜在的“黑暗森林”风险，呼吁创业者要成为“可乐师”而非“玻璃瓶工匠”，将 AI 与商业模式创新结合，迎接智业文明的黎明。

商业科技

中文

商业模式

人工智能

意图经济

万字详解大模型应用发展：RAG、MCP、Agent 的爆发之旅

腾讯云开发者

01-20

17821 字 (约 72 分钟)

91

文章全方位回顾了大模型（LLM）的发展史，从 2017 年 Transformer 架构的诞生到 2025 年 DeepSeek-R1 等高性价比推理模型的破圈。核心内容聚焦于三大技术支柱：首先是 RAG（检索增强生成）的演进，从 Naive RAG 到 GraphRAG 及 Agentic RAG，解决了模型知识局限与幻觉问题；其次是 AI Agent 的爆发，详细拆解了 CoT、ToT、ReAct 等推理规划模式，以及多智能体协作（MAS）的优势与挑战；最后探讨了标准化协议（如 MCP、A2A）对生态互操作性的重要性。文章强调，当前 AI 正从“对话交互”向“人机协作”与“端到端执行”的范式跃迁，推理成本的下降和强化学习的引入正驱动模型向“内生智能”进化。

万字详解大模型应用发展：RAG、MCP、Agent 的爆发之旅

腾讯云开发者

|

01-20

|

17821 字 (约 72 分钟)

|

91

文章全方位回顾了大模型（LLM）的发展史，从 2017 年 Transformer 架构的诞生到 2025 年 DeepSeek-R1 等高性价比推理模型的破圈。核心内容聚焦于三大技术支柱：首先是 RAG（检索增强生成）的演进，从 Naive RAG 到 GraphRAG 及 Agentic RAG，解决了模型知识局限与幻觉问题；其次是 AI Agent 的爆发，详细拆解了 CoT、ToT、ReAct 等推理规划模式，以及多智能体协作（MAS）的优势与挑战；最后探讨了标准化协议（如 MCP、A2A）对生态互操作性的重要性。文章强调，当前 AI 正从“对话交互”向“人机协作”与“端到端执行”的范式跃迁，推理成本的下降和强化学习的引入正驱动模型向“内生智能”进化。

软件编程

中文

大语言模型

RAG

AI Agent

“手写代码已不再必要！”Redis 之父罕见表态：AI 将永远改变编程，网友质疑：我怎么没遇到这么好用的 AI！

CSDN

01-15

4906 字 (约 20 分钟)

91

本文围绕 Redis 之父 Salvatore Sanfilippo (antirez) 关于 AI 将彻底改变编程的观点展开，他认为在多数情况下“手写代码已不再必要”。文章首先引述了 Google 首席工程师和 Linux 之父对此的谨慎甚至保留态度，随后深入阐述了 antirez 的激进看法：AI 能够独立完成中等规模的编程任务，甚至完整项目，其表现取决于任务类型和开发者清晰的抽象能力。antirez 通过亲身经历，分享了 AI 在改进 linenoise 库、修复 Redis 测试瞬态失败、构建纯 C BERT 推理库以及复现 Redis Streams 内部实现等方面的强大助力，强调 AI 使“理解要做什么”和“如何去做”变得更为重要。文章同时也引用了 Hacker News 社区中开发者的质疑声音，认为目前的 AI 在复杂系统设计、长期维护和处理边界条件上仍有明显不足，且质量良莠不齐。尽管存在争议，antirez 仍坚持认为开发者不应逃避 AI 带来的变革，而是应积极探索其应用，并对 AI 推动的社会财富再分配和技术民主化抱有期待，同时也关注 AI 可能带来的失业问题和技术集中化的风险。

“手写代码已不再必要！”Redis 之父罕见表态：AI 将永远改变编程，网友质疑：我怎么没遇到这么好用的 AI！

CSDN

|

01-15

|

4906 字 (约 20 分钟)

|

91

本文围绕 Redis 之父 Salvatore Sanfilippo (antirez) 关于 AI 将彻底改变编程的观点展开，他认为在多数情况下“手写代码已不再必要”。文章首先引述了 Google 首席工程师和 Linux 之父对此的谨慎甚至保留态度，随后深入阐述了 antirez 的激进看法：AI 能够独立完成中等规模的编程任务，甚至完整项目，其表现取决于任务类型和开发者清晰的抽象能力。antirez 通过亲身经历，分享了 AI 在改进 linenoise 库、修复 Redis 测试瞬态失败、构建纯 C BERT 推理库以及复现 Redis Streams 内部实现等方面的强大助力，强调 AI 使“理解要做什么”和“如何去做”变得更为重要。文章同时也引用了 Hacker News 社区中开发者的质疑声音，认为目前的 AI 在复杂系统设计、长期维护和处理边界条件上仍有明显不足，且质量良莠不齐。尽管存在争议，antirez 仍坚持认为开发者不应逃避 AI 带来的变革，而是应积极探索其应用，并对 AI 推动的社会财富再分配和技术民主化抱有期待，同时也关注 AI 可能带来的失业问题和技术集中化的风险。

软件编程

中文

AI对编程影响

LLM

代码生成

文章

订阅源

文章

订阅源