推文

AI Breakfast

1周前

这太不可思议了，它是这样运作的：

普通大型语言模型（比如 Grok 或 GPT 变体）通过数十亿个数字（权重）存储它们的“kn0wledge”。

每个权重通常是一个高精度小数（比如 3.14159），使用 16 比特存储。这导致模型在内存中非常庞大，运行起来既慢又昂贵，因为计算机必须进行大量的复杂乘法（例如，每个连接的输入 × 权重）。

BitNet b1.58 颠覆了这一现状：它从零开始训练模型，使得每个权重仅限于三个可能的值：-1、0 或 +1。

这称为三元（三态）量化。平均而言，它每个权重仅使用 1.58 比特（因此得名“b1.58”，它不完全是 1 比特，但非常接近）。

“0”尤其有用：它就像一个开关，用于断开不重要的连接，使模型更加稀疏、更高效，而不会损失太多精度。

令人惊讶的是，当在足够的数据上正确训练时，这些微小的权重模型表现几乎与相同大小的全精度模型一样好。

这就像将一张高分辨率照片压缩成一张草图（你会失去精细细节，但大体轮廓依然可辨）。

Simplifying AI

1周前

Microsoft just changed the game 🤯

They've open-sourced bitnet.cpp, a 1-bit LLM inference framework.

It let's you run 100B parameter models on your local CPU without GPUs.

- 6.17x faster inference
- 82.2% less energy on CPUs

100% Open Source.

00:13

297

768

6,771

86万

351

267

6万

meng shao

7天前

跟着 Anthropic 博客和文档，学习「Agent Skills」构建的最佳实践

重新阅读了 Anthropic 工程博客和 Agent Skills 文档：
1. anthropic.com/engineering/eq…
2. platform.claude.com/docs/en/agents…

在这两篇文章中，找到了 Agent Skills 构建的这几个关键原则和最佳实践，咱们是基于 Claude 来解读的，但同样适用于其他 AI Agents，咱们一起看看。

先说结论：一个优秀 Skill 的“标准画像”
· 名字（Name）：使用动名词（如 processing-pdfs），清晰明确。
· 描述（Description）：用第三人称（如 "Processes Excel files..." 而不是 "I can help you..."），并包含具体的触发关键词。
· 核心文件：一个精炼的 SKILL. md 作为“中控台”，若干个 .md 作为“专业手册”，以及一组 .py 或 .sh 脚本作为“精密工具”。

1. “极简主义”：只提供 Claude 不知道的信息
Claude 本身已经拥有庞大的知识库，上下文窗口是昂贵的公共资源。
· 不要过度解释：如果 Claude 已经知道什么是 PDF 或 Git，不要在技能中解释这些基础概念。
· 挑战每一行文字：问自己：“Claude 真的需要这段解释吗？”、“这段话的 Token 成本是否换回了足够的价值？”
· 对比示例：
  · 反面（啰嗦）：“PDF 是一种便携式文档格式，要提取它，你需要安装 pdfplumber 库...”
  · 正面（专业）：直接给出代码示例 import pdfplumber; ...。

2. 动态调节“自由度”：给 Claude 合适的约束
根据任务的性质，决定给 Claude 多少发挥空间。
· 高自由度（文字指令）：适用于有多种路径可通向成功、需要根据上下文做决策的任务（如：代码审查、内容润色）。
· 中自由度（带参数的脚本）：适用于有固定模式但需要灵活配置的任务（如：生成周报、数据分析）。
· 低自由度（固定脚本）：适用于极度脆弱、不容出错的任务（如：数据库迁移、系统部署）。
  · 金句：像对待机器人一样——在悬崖边的窄桥上，给它死指令（低自由度）；在开阔的草原上，给它大方向（高自由度）。

3. 利用“渐进式披露”结构化你的文件夹
不要把所有东西都塞进一个 SKILL. md，这会迅速耗尽 Token。
· 保持扁平化：官方建议参考链接只保留一层深度。即 SKILL. md 直接指向 reference. md，不要出现 SKILL. md -> A. md -> B. md 的深层嵌套。
· 模块化拆分：
  · 如果技能涉及多个领域（如财务、销售），将它们拆分为 finance. md 和 sales. md。
  · 在 SKILL. md 中做一个“目录”，Claude 只有在处理财务问题时才会去读取财务相关的详细文档。
· 长文档技巧：如果一个参考文件超过 100 行，务必在顶部加一个目录。这能确保 Claude 即使只是部分预览文件，也能看到全貌。

4. 强制执行“验证循环”
这是提升 Agent 成功率最有效的工程手段。
· Checklist 模式：让 Claude 在执行复杂任务前，先拷贝一份清单到回复中，每完成一步打一个钩。这能防止 Claude “偷懒”跳过关键步骤。
· “运行 -> 校验 -> 修正”：在技能中包含验证脚本。
  · 示例：修改 XML 文件后，强制 Claude 运行一个 validate. py。如果报错，Claude 必须根据错误信息自我修正，而不是直接报错退出。
· 让 Claude 互检：如果不用代码，也可以让 Claude 根据 STYLE_GUIDE.md 来自我审计。

5. 评价驱动开发：先写测试，再写技能
不要凭空想象 Claude 需要什么，要从失败中学习。
· 识别差距：先让 Claude 在没有技能的情况下执行任务，记录它在哪里跌倒了（例如：不知道公司的特定 API 格式）。
· 最小化补足：只编写刚好能让它通过测试的那部分技能描述。
· 模型差异化测试：
  · Haiku：需要更详细、直白的引导。
  · Sonnet：需要高效、平衡的指令。
  · Opus/4.5：非常聪明，要避免过度解释，否则它会觉得你太啰嗦而忽略重点。

211

213

1.2万

AI Will

1周前

Gemini 新功能对无露脸 YouTuber 是颠覆级提升 🔥

通过 Gemini 内置的 NotebookLM，无需反复写长提示词，就能生成不机械、贴合细分领域、以高留存为目标的脚本，脚本效率和质量大幅提升。

Himanshu - YouTuPreneur 团队已用这套方法创作出真正有效、具备爆款潜力的内容。

229

305

3.4万

Genspark

1周前

每个人都有一个故事要讲。现在，你可以真正地把它展示出来。

🎉 我们升级后的 AI 图像功能就像一个智能助手！

只需一个提示词，它便能一步步创作你的漫画：
• 设计你的角色
• 遵循你的情节
• 生成整个漫画系列

你一直在等待讲述什么故事呢？

00:32

221

1.7万

elvis

1周前

本周伊始，一篇出色的技术论文呈现在我们面前。

残差网络彻底改变了深度学习。然而，其核心机制（恒等快捷连接）却隐藏着一个局限：每一层都将信息简单地叠加到前一个状态上，从未进行减法或反射操作。

这种严格的加性偏差导致网络无法建模需要负特征值的复杂动力学，例如振荡或对立行为。

这项新研究引入了深度Delta学习（DDL），这是一个通过将固定的恒等快捷连接替换为可学习的、数据依赖的几何变换（称为Delta算子）来推广残差网络的框架。

一个单一的可学习标量门 β 控制着网络如何变换隐藏状态。当 β 接近 0 时，网络实现恒等映射。当 β 接近 1 时，你可以得到一个明确擦除信息的正交投影。当 β 接近 2 时，你将获得一个完整的Householder反射。

那么，这项工作为何有效？门 β 作为一个逐层步长，同步了特征的遗忘（擦除）和注入（写入）。网络现在可以有选择地遗忘来自早期层的干扰信息，同时注入新特征，而这是标准残差连接无法实现的。

该论文提供了严谨的谱分析，展示了 β 如何塑造每层转移算子的特征值。这赋予网络以数据依赖的方式学习具有负特征值的变换的能力，从而在网络深度上实现更丰富的动力系统行为。

这是一篇令人兴奋的论文，因为对逐层状态转换的战略控制有望为非常深的神经网络带来新的能力。

论文：arxiv.org/abs/2601.00417
在我们的学院学习如何使用LLMs和AI智能体进行构建：dair-ai.thinkific.com

267

235

1.6万

宝玉

1周前

有事没事别乱优化性能😂

刚看到的一条评论：

> 一旦规模化，即使是你写的 Bug 也会拥有用户。

我大学毕业后的第一份工作是在一家公司，入职时有一个盛大的新员工培训研讨会。有一天，他们给我们讲了一个故事：那是 90 年代中期，技术团队把软件的加载时间从 5 分钟 优化到了 30 秒。

结果，客户的负面反馈瞬间爆发。

这次加载时间的优化，竟然摧毁了那家公司的企业文化。

原来，在优化之前，大家到了办公室，打开电脑，利用那 5 分钟的加载时间聊天、喝咖啡，开启轻松的一天。而现在，还没等他们从办公桌前站起来，软件就已经准备好，催着他们干活了！

这个故事的寓意——以及上面那句引言——并不是叫你不要去改进事物。相反，它是一个提醒：你构建的软件不仅仅存在于 PRD（产品需求文档） 或测试套件中。它是一个在现实世界中与人交互的系统。人们会围绕它养成习惯，开发出变通的方法（Workarounds），甚至为了实际使用场景而依赖某些 Bug。

这对作为软件工程师的你来说至关重要：你必须理解软件的真正用途和现实世界的使用方式。你的工作不是为了完成产品经理给的一堆工单（Tickets），你的工作是构建能够解决用户问题的软件。

链接news.ycombinator.com/item?id=464888…G

218

140

5.8万

宝玉

1周前

OpenCode 精准的踩到了需求：
团队需要开源的、模型无关的、可灵活定制的、功能强大的 coding agent。

Claude Code 不开源，Claude Agent SDK 不开源但开箱即用，不过需要绑死 Claude 或者兼容模型

Codex CLI 开源，但是和 codex 模型绑定紧密，并且功能不如 CC 强大

Gemini CLI 开源，也是和 Gemini 模型绑定紧密

Kimi CLI 开源，了解不多

对个人来说，如果是包月用户，用官方 cli 就挺好，不一定要去折腾 open code。

Eric Xu (e/Mettā)

1周前

2026 年应该是AI coding 本地化，规模化的一年  因为模型上的细微差异固然重要 ，更大的需求来自团队，而团队现在有足够的空间来定制 harness. 

的确，如果是个人继续项目 用 Claude Code 就可以了。如果是团队，肯定会将团队的工作流，知识，包括工具定制化，将协作固定化。CC 不开源，在可定制上仅提供 Anthropic 自己想出来的一套配置方案，在生态系统竞争里很难长久保持优势。

一个类似但不恰当的比喻是 git 底层一开始真的只是一个不可变文件系统。因为是开源的项目，squash/stash/worktree 等更高级的工作流都是社区后来加入的，而且都需要往上游贡献  想象一下除了拥有 Gemini Claude codex 三家以外 许多非 AI 大厂会选择基于什么系统定制 结果就不言而喻了。

7.6万

234

243

6万

Greg Brockman

1周前

关于 ChatGPT 在医疗健康方面的有趣统计数据：

Olivia Moore

1周前

More than 5% of ChatGPT messages sent globally are about healthcare - and 25% of WAUs ask health Qs.

(per OpenAI's new "AI as a Healthcare Ally" report) 

Usage is higher at times where doctors' offices are closed, and in "hospital deserts" where access is limited 👇

175

6.2万

333

4.5万

AI产品黄叔

1周前

n8n完成率惨淡，Skills翻了10倍 MCP是面向开发者的
Skills是面向用户的
这句话，花了大半年才想明白

去年玩了三个月MCP
写了一堆教程，阅读量也不错
结果玩着玩着，发现没得玩了

好的API太有限
想开发新MCP，门槛又高
拿着锤子找钉子，发现手头根本没锤子

后来转战n8n
在社团里教了两节课
结果交作业的人，少得可怜

为啥？卡点太多
普通人根本玩不转

直到我试了Skills

一个小时，跑通了微博热搜产品创意
中间没卡过一次
不用搭workflow，不用填参数
自然语言说一句，AI全帮你搞定

那一刻我脑子里只有一个念头：
n8n白教了

后来我大规模教Skills
学员复刻完成率，翻了10倍
线下给职场人和老板演示
个个眼睛发光

因为Skills不挑人
你只要会说话，就能用

未来的Agent不光会去调API
它更会调用专家标准化好的Skills
解决你解决不了的垂直问题

你每天是不是有大量重复工作？
这些Skills都能帮你干掉

这才是普通人该上的车

发完这篇文章
有个朋友和我私聊说
真的是，她前阵子搞了个Dify工作流还开源了
后来一看，Skills都能做
而且更灵活。。。

148

141

1.6万

Greg Brockman

1周前

GPT-5.2 Pro 在生成优雅证明方面的卓越表现：

Chad Jones

1周前

ChatGPT 5.2 Pro provides an elegant proof of the explosive growth result in Example 3 (pp. 256-257) in Aghion, Jones, and Jones (2019)   1/N

280

14.2万

467

6.2万

订阅源

这太不可思议了，它是这样运作的：

普通大型语言模型（比如 Grok 或 GPT 变体）通过数十亿个数字（权重）存储它们的“kn0wledge”。

每个权重通常是一个高精度小数（比如 3.14159），使用 16 比特存储。这导致模型在内存中非常庞大，运行起来既慢又昂贵，因为计算机必须进行大量的复杂乘法（例如，每个连接的输入 × 权重）。

BitNet b1.58 颠覆了这一现状：它从零开始训练模型，使得每个权重仅限于三个可能的值：-1、0 或 +1。

这称为三元（三态）量化。平均而言，它每个权重仅使用 1.58 比特（因此得名“b1.58”，它不完全是 1 比特，但非常接近）。

“0”尤其有用：它就像一个开关，用于断开不重要的连接，使模型更加稀疏、更高效，而不会损失太多精度。

令人惊讶的是，当在足够的数据上正确训练时，这些微小的权重模型表现几乎与相同大小的全精度模型一样好。

这就像将一张高分辨率照片压缩成一张草图（你会失去精细细节，但大体轮廓依然可辨）。

Microsoft just changed the game 🤯

They've open-sourced bitnet.cpp, a 1-bit LLM inference framework.

It let's you run 100B parameter models on your local CPU without GPUs.

- 6.17x faster inference
- 82.2% less energy on CPUs

100% Open Source.

跟着 Anthropic 博客和文档，学习「Agent Skills」构建的最佳实践

重新阅读了 Anthropic 工程博客和 Agent Skills 文档：
1. anthropic.com/engineering/eq…
2. platform.claude.com/docs/en/agents…

在这两篇文章中，找到了 Agent Skills 构建的这几个关键原则和最佳实践，咱们是基于 Claude 来解读的，但同样适用于其他 AI Agents，咱们一起看看。

先说结论：一个优秀 Skill 的“标准画像”
· 名字（Name）：使用动名词（如 processing-pdfs），清晰明确。
· 描述（Description）：用第三人称（如 "Processes Excel files..." 而不是 "I can help you..."），并包含具体的触发关键词。
· 核心文件：一个精炼的 SKILL. md 作为“中控台”，若干个 .md 作为“专业手册”，以及一组 .py 或 .sh 脚本作为“精密工具”。

1. “极简主义”：只提供 Claude 不知道的信息
Claude 本身已经拥有庞大的知识库，上下文窗口是昂贵的公共资源。
· 不要过度解释：如果 Claude 已经知道什么是 PDF 或 Git，不要在技能中解释这些基础概念。
· 挑战每一行文字：问自己：“Claude 真的需要这段解释吗？”、“这段话的 Token 成本是否换回了足够的价值？”
· 对比示例：
· 反面（啰嗦）：“PDF 是一种便携式文档格式，要提取它，你需要安装 pdfplumber 库...”
· 正面（专业）：直接给出代码示例 import pdfplumber; ...。

2. 动态调节“自由度”：给 Claude 合适的约束
根据任务的性质，决定给 Claude 多少发挥空间。
· 高自由度（文字指令）：适用于有多种路径可通向成功、需要根据上下文做决策的任务（如：代码审查、内容润色）。
· 中自由度（带参数的脚本）：适用于有固定模式但需要灵活配置的任务（如：生成周报、数据分析）。
· 低自由度（固定脚本）：适用于极度脆弱、不容出错的任务（如：数据库迁移、系统部署）。
· 金句：像对待机器人一样——在悬崖边的窄桥上，给它死指令（低自由度）；在开阔的草原上，给它大方向（高自由度）。

3. 利用“渐进式披露”结构化你的文件夹
不要把所有东西都塞进一个 SKILL. md，这会迅速耗尽 Token。
· 保持扁平化：官方建议参考链接只保留一层深度。即 SKILL. md 直接指向 reference. md，不要出现 SKILL. md -> A. md -> B. md 的深层嵌套。
· 模块化拆分：
· 如果技能涉及多个领域（如财务、销售），将它们拆分为 finance. md 和 sales. md。
· 在 SKILL. md 中做一个“目录”，Claude 只有在处理财务问题时才会去读取财务相关的详细文档。
· 长文档技巧：如果一个参考文件超过 100 行，务必在顶部加一个目录。这能确保 Claude 即使只是部分预览文件，也能看到全貌。

4. 强制执行“验证循环”
这是提升 Agent 成功率最有效的工程手段。
· Checklist 模式：让 Claude 在执行复杂任务前，先拷贝一份清单到回复中，每完成一步打一个钩。这能防止 Claude “偷懒”跳过关键步骤。
· “运行 -> 校验 -> 修正”：在技能中包含验证脚本。
· 示例：修改 XML 文件后，强制 Claude 运行一个 validate. py。如果报错，Claude 必须根据错误信息自我修正，而不是直接报错退出。
· 让 Claude 互检：如果不用代码，也可以让 Claude 根据 STYLE_GUIDE.md 来自我审计。

5. 评价驱动开发：先写测试，再写技能
不要凭空想象 Claude 需要什么，要从失败中学习。
· 识别差距：先让 Claude 在没有技能的情况下执行任务，记录它在哪里跌倒了（例如：不知道公司的特定 API 格式）。
· 最小化补足：只编写刚好能让它通过测试的那部分技能描述。
· 模型差异化测试：
· Haiku：需要更详细、直白的引导。
· Sonnet：需要高效、平衡的指令。
· Opus/4.5：非常聪明，要避免过度解释，否则它会觉得你太啰嗦而忽略重点。

Gemini 新功能对无露脸 YouTuber 是颠覆级提升 🔥

通过 Gemini 内置的 NotebookLM，无需反复写长提示词，就能生成不机械、贴合细分领域、以高留存为目标的脚本，脚本效率和质量大幅提升。

Himanshu - YouTuPreneur 团队已用这套方法创作出真正有效、具备爆款潜力的内容。

每个人都有一个故事要讲。现在，你可以真正地把它展示出来。

🎉 我们升级后的 AI 图像功能就像一个智能助手！

只需一个提示词，它便能一步步创作你的漫画：
• 设计你的角色
• 遵循你的情节
• 生成整个漫画系列

你一直在等待讲述什么故事呢？

本周伊始，一篇出色的技术论文呈现在我们面前。

残差网络彻底改变了深度学习。然而，其核心机制（恒等快捷连接）却隐藏着一个局限：每一层都将信息简单地叠加到前一个状态上，从未进行减法或反射操作。

这种严格的加性偏差导致网络无法建模需要负特征值的复杂动力学，例如振荡或对立行为。

这项新研究引入了深度Delta学习（DDL），这是一个通过将固定的恒等快捷连接替换为可学习的、数据依赖的几何变换（称为Delta算子）来推广残差网络的框架。

一个单一的可学习标量门 β 控制着网络如何变换隐藏状态。当 β 接近 0 时，网络实现恒等映射。当 β 接近 1 时，你可以得到一个明确擦除信息的正交投影。当 β 接近 2 时，你将获得一个完整的Householder反射。

那么，这项工作为何有效？门 β 作为一个逐层步长，同步了特征的遗忘（擦除）和注入（写入）。网络现在可以有选择地遗忘来自早期层的干扰信息，同时注入新特征，而这是标准残差连接无法实现的。

该论文提供了严谨的谱分析，展示了 β 如何塑造每层转移算子的特征值。这赋予网络以数据依赖的方式学习具有负特征值的变换的能力，从而在网络深度上实现更丰富的动力系统行为。

这是一篇令人兴奋的论文，因为对逐层状态转换的战略控制有望为非常深的神经网络带来新的能力。

论文：arxiv.org/abs/2601.00417
在我们的学院学习如何使用LLMs和AI智能体进行构建：dair-ai.thinkific.com

有事没事别乱优化性能😂

刚看到的一条评论：

> 一旦规模化，即使是你写的 Bug 也会拥有用户。

我大学毕业后的第一份工作是在一家公司，入职时有一个盛大的新员工培训研讨会。有一天，他们给我们讲了一个故事：那是 90 年代中期，技术团队把软件的加载时间从 5 分钟优化到了 30 秒。

结果，客户的负面反馈瞬间爆发。

这次加载时间的优化，竟然摧毁了那家公司的企业文化。

原来，在优化之前，大家到了办公室，打开电脑，利用那 5 分钟的加载时间聊天、喝咖啡，开启轻松的一天。而现在，还没等他们从办公桌前站起来，软件就已经准备好，催着他们干活了！

这个故事的寓意——以及上面那句引言——并不是叫你不要去改进事物。相反，它是一个提醒：你构建的软件不仅仅存在于 PRD（产品需求文档）或测试套件中。它是一个在现实世界中与人交互的系统。人们会围绕它养成习惯，开发出变通的方法（Workarounds），甚至为了实际使用场景而依赖某些 Bug。

这对作为软件工程师的你来说至关重要：你必须理解软件的真正用途和现实世界的使用方式。你的工作不是为了完成产品经理给的一堆工单（Tickets），你的工作是构建能够解决用户问题的软件。

链接news.ycombinator.com/item?id=464888…G

OpenCode 精准的踩到了需求：
团队需要开源的、模型无关的、可灵活定制的、功能强大的 coding agent。

Claude Code 不开源，Claude Agent SDK 不开源但开箱即用，不过需要绑死 Claude 或者兼容模型

Codex CLI 开源，但是和 codex 模型绑定紧密，并且功能不如 CC 强大

Gemini CLI 开源，也是和 Gemini 模型绑定紧密

Kimi CLI 开源，了解不多

对个人来说，如果是包月用户，用官方 cli 就挺好，不一定要去折腾 open code。

2026 年应该是AI coding 本地化，规模化的一年因为模型上的细微差异固然重要，更大的需求来自团队，而团队现在有足够的空间来定制 harness.

的确，如果是个人继续项目用 Claude Code 就可以了。如果是团队，肯定会将团队的工作流，知识，包括工具定制化，将协作固定化。CC 不开源，在可定制上仅提供 Anthropic 自己想出来的一套配置方案，在生态系统竞争里很难长久保持优势。

一个类似但不恰当的比喻是 git 底层一开始真的只是一个不可变文件系统。因为是开源的项目，squash/stash/worktree 等更高级的工作流都是社区后来加入的，而且都需要往上游贡献想象一下除了拥有 Gemini Claude codex 三家以外许多非 AI 大厂会选择基于什么系统定制结果就不言而喻了。

More than 5% of ChatGPT messages sent globally are about healthcare - and 25% of WAUs ask health Qs.

(per OpenAI's new "AI as a Healthcare Ally" report)

Usage is higher at times where doctors' offices are closed, and in "hospital deserts" where access is limited 👇

n8n完成率惨淡，Skills翻了10倍 MCP是面向开发者的
Skills是面向用户的
这句话，花了大半年才想明白

去年玩了三个月MCP
写了一堆教程，阅读量也不错
结果玩着玩着，发现没得玩了

好的API太有限
想开发新MCP，门槛又高
拿着锤子找钉子，发现手头根本没锤子

后来转战n8n
在社团里教了两节课
结果交作业的人，少得可怜

为啥？卡点太多
普通人根本玩不转

直到我试了Skills

一个小时，跑通了微博热搜产品创意
中间没卡过一次
不用搭workflow，不用填参数
自然语言说一句，AI全帮你搞定

那一刻我脑子里只有一个念头：
n8n白教了

后来我大规模教Skills
学员复刻完成率，翻了10倍
线下给职场人和老板演示
个个眼睛发光

因为Skills不挑人
你只要会说话，就能用

未来的Agent不光会去调API
它更会调用专家标准化好的Skills
解决你解决不了的垂直问题

你每天是不是有大量重复工作？
这些Skills都能帮你干掉

这才是普通人该上的车

发完这篇文章
有个朋友和我私聊说
真的是，她前阵子搞了个Dify工作流还开源了
后来一看，Skills都能做
而且更灵活。。。