推文

歸藏(guizang.ai)

1周前

昨晚 CES 2026 老黄照例发表演讲，总结一下发布内容

主要是升级的 Rubin 芯片架构和 Alpamayo 机器人和自动驾驶 VLA 模型

------

Rubin 架构平台特性：

100% 液冷： 使用 45°C 的温水冷却，无需冷水机组，节省大量能源；

机密计算： 所有数据在传输、静态和计算过程中均加密；

性能飞跃： 在训练 10 万亿参数模型时，Rubin 的吞吐量大幅提升，且生成 Token 的成本仅为 Blackwell 的十分之一；

Rubin 架构主要有下面几个部分组成：

Vera CPU： 专为功率受限环境设计，性能功耗比是前代的 2 倍，采用空间多线程技术。

Rubin GPU：浮点运算性能是 Blackwell 的 5 倍，但晶体管数量仅增加 1.6 倍。引入了 NVFP4 Tensor Core，一种能够动态调整精度的处理单元。

NVLink 6 Switch： 交换机芯片带宽达到 3.6 倍全球互联网总流量，确保每个 GPU 都能同时与所有其他 GPU 通信。

ConnectX-9 网卡： 与 Vera CPU 协同设计，提供 1.6 Tb/s 的带宽。

BlueField-4 DPU：负责安全性及虚拟化，它还引入了革命性的 KV Cache 存储功能，解决了长上下文对话中 GPU 显存不足的问题，为每个 GPU 额外提供 16TB 的快速访问内存。

Spectrum-X Ethernet Switch（新一代）：

采用硅光子技术和共封装光学器件，拥有 512 个通道。

------

开源 Alpamayo 模型家族：

Alpamayo 1 VLA 模型：100亿参数的“链式思考”视觉-语言-行动模型，能把问题分解为步骤、在多方案中推理并选择更安全的路径，并用自然语言说明行动与轨迹。

开放数据集：包含超过 1700 小时的驾驶数据，这些数据涵盖了各种地理区域和路况，囊括了罕见且复杂的真实世界场景。

 AlpaSim：一个用于验证自动驾驶系统的开源仿真框架。

2.1万

meng shao

1周前

Claude Code 规格驱动开发进阶：Sub-Agent 自动化验证，提升大型功能实现质量

来自 Claude Code 开发者 @trq212 对 AI 辅助编码工作流的进一步扩展，延续其之前分享的“规格驱动开发（Spec-Driven Development）”理念，他强调：在完成大型功能实现后，通过启动一个 Sub-Agent 读取规格文件、检查是否完全符合要求、若有偏差则提供反馈并修复，从而简化验证过程。

核心内容
· 规格驱动的核心流程：先从简短提示开始，使用 Claude Code 的 AskUserQuestionTool 让 AI “反问”开发者，深入探讨技术实现、UI/UX、边缘案例、权衡等，直到规格完善并写入文件。
· 新增验证机制：详细规格的最大优势在于便于自动化验证。帖子建议在实现阶段结束后，添加指令让 AI 启动 Sub-Agent 独立审阅规格与代码，实现自我反馈循环，提高准确性和可靠性。
· 实际意义：这种方法利用 AI 的深度互动和 Sub-Agent 并行能力，减少人为审查负担，尤其适合复杂项目，已在 Claude Opus 4.5 模型上表现出色。

Github SVP @jaredpalmer 也关注到了这个方法，询问此方法与现有「feature-dev plugin」的区别，建议合并。
Thariq 回复称，模型能力快速演进（如 Opus 4.5 才使规格方法真正高效），目前处于社区探索阶段，未来会内置到产品中，但乐于提前分享听取反馈。

其他回复讨论
· 规格管理实践：有人问是否将规格提交到 Git，Thariq 表示放在 gitignore 的专用文件夹中，避免版本混乱；另有开发者建议将规格作为设计文档提交，便于后续审查。
· 扩展与优化：多位用户分享变体，如结合静态分析工具捕获规格外问题、让 AI 先自测规格理解、添加 Sub-Agent 交叉验证边缘案例，或与“Ralph Wiggum”迭代循环插件结合。部分人提到在 PR 中让 AI 直接审阅规格，或使用多模型互审提升质量。
· 社区共识：许多回复称此为“Game Changer”，已融入日常工作流；有人开源相关工具，或讨论未来规格可能取代代码成为主要 artifacts。

Thariq

1周前

one of the benefits of a detailed spec is that verification is also easier, after the work is done I like to add:

"spin up a subagent to read the spec file and verify if work has been completed, have it give feedback if not and then address the feedback"

1,009

12.5万

6,945

歸藏(guizang.ai)

1周前

老马从韩国买了 5 台 380 兆瓦的天然气涡轮发电机

专门用来给他新增的 60 万台 GB 200 NVL72 集群供电

现在为了发电各家各显神通啊，老马都开始自建天然气发电站了

SemiAnalysis

1周前

BREAKING: @elonmusk 's xAI has bought an 5 additional 380MW of natural gas turbines from South Korea's Doosan Enerbility. The first two units are scheduled for delivery by the end of 2026. This will power an additional 600,000+ GB200 NVL72 equivalent size cluster (or 350,000 + VR200 NVL144 equivalent size cluster). @rpoo @elonmusk @BrentM_SpaceX is singluar in terms of their abitily to build the absolute largest datacenter in the world, nobody else run as fast as them.

113

295

3,536

32.1万

2.4万

AI Will

1周前

Jensen Huang 在 CES 2026 表示，计算机产业正经历根本性变革：

从传统软件开发转向在 GPU 上训练软件，应用每次都能从零生成内容。整个五层技术栈被重塑

过去十年的万亿美元产业正现代化，数千亿美元 VC 资金涌入，研发预算正向 AI 转移，显示出 AI 时代带来的巨大投资与机遇。

01:49

2,909

向阳乔木

3天前

为什么AI需要"连续可微"？一个盲人下山的故事

训练AI就像盲人下山

你站在迷雾笼罩的山上，目标是找到最低的山谷。

但你什么都看不见，只能用脚感受地面的倾斜。

这就是训练神经网络的真实写照。

山的高度代表模型的错误程度（越低越好）。

你的位置代表模型的参数设置。

脚感受到的坡度就是梯度（数学上的导数）。

往下坡走就是梯度下降算法。

你的策略很简单：用脚感受倾斜方向，往下坡方向走一小步，不断重复，直到走到谷底。

有个专业名字：梯度下降（Gradient Descent）。

三种地形，三种命运

地形A：光滑山坡

地面平滑连续，你的脚能清晰感受到："这里向东南方向倾斜15度"。

你知道该往哪走，一步步稳稳地走到谷底。

这就是"连续可微"的函数，AI训练的理想环境。

地形B：悬崖断层

你往前试探一步，突然从平地掉下10米悬崖。

你的脚只能感受到"有地"或"没地"，无法判断倾斜方向。

这就是"不连续"的函数，无法训练，因为没有"方向指引"。

地形C：尖锐山脊

你站在刀刃般的山脊顶端，左右都是陡坡，但脊线本身没有倾斜度。

你的脚在尖角处无法判断该往左还是往右。

这就是"不可微"的函数，在关键点失去方向。

为什么AI必须"光滑"？

训练神经网络用的是反向传播（Backpropagation）算法，它的核心：

从结果倒推，如果输出错了，每个参数该调整多少？

这个"该调整多少"需要计算梯度（导数）。

如果遇到悬崖或尖角，梯度不存在或无意义，整个训练就卡住了。

这就是为什么AI不使用阶跃函数（像开关，非0即1，梯度几乎处处为0），也要小心使用绝对值函数（在0点有尖角，无法求导）。

而是选择Sigmoid函数（平滑S形曲线，处处可导）或ReLU函数（大部分区域线性，实践中有效）。

LLM的两难困境

人类思考是跳跃式的，像是在问"苹果是水果吗？"时，直接查询知识得出"是"或"否"。

这像是在断崖地形上跳跃，清晰明确，但无法训练。

LLM实际做的是把离散判断变成概率分布：计算"是"的概率95%，"否"的概率5%，然后输出"是"（但内部保留了不确定性）。

核心概念速查

梯度下降（Gradient Descent）：像盲人下山，靠感受坡度找最低点的优化算法。

梯度/导数（Gradient）：数学上表示"变化率"，直观理解就是"坡度"或"方向"。

连续（Continuous）：函数没有跳跃断层，像平滑的山坡而非悬崖。

可微（Differentiable）：函数在每个点都有明确的"倾斜方向"，没有尖角。

反向传播（Backpropagation）：从输出倒推回去，计算每个参数对错误的贡献度。

连续可微（Continuously Differentiable）：既没有悬崖，也没有尖角，训练AI的必要条件。

一句话总结

训练AI就像盲人下山，必须用"坡度"（梯度）指引方向。

如果地形有断崖（不连续）或尖角（不可微），就失去了方向感，无法优化。

所以AI必须把一切变"光滑"，哪怕这意味着用概率近似代替精确判断。

2,048

Qdrant

1周前

Dhanuka Ranasinghe 刚刚发布了一份关于在完全本地的 RAG 技术栈中实现策略驱动安全和租户感知缓存的实战演练。

本指南将涵盖以下内容：
- 使用 Cerbos 强制执行基于角色的访问控制，确保用户仅能访问其被授权的内容。
- 利用 Redis 实现租户隔离缓存，以减少冗余的向量查询。
- 通过 Ollama（大型语言模型和嵌入）、Qdrant（向量搜索解决方案）、Redis 和 Cerbos 构建一个本地优先的 RAG 架构。
- 结合混合检索（稠密检索与词法检索）以实现更高的召回率和更低的延迟。
- 借助实用技巧和示例代码测试和调试您的安全 RAG 技术栈。

本指南包含真实的示例代码、架构图和逐步说明，旨在帮助您将 RAG 实施从概念变为生产。

在此阅读完整指南：

👉 dhanuka84.blogspot.com/2025/11/hands-…

#RAG #AI #LangChain #Qdrant #Redis #Cerbos #LocalAI #Security #AIEngineering #DevOps

587

Logan Kilpatrick

6天前

今天，Gmail 正式迈入 Gemini 时代！重磅推出 AI 收件箱、Gmail AI 概览等众多新功能！！

01:11

2,293

299

4,775

1,153

464.7万

2,809

Andrej Karpathy

6天前

新文章发布：nanochat 迷你系列 v1

关于大语言模型（LLM）的正确思考方式是：目标不应是优化单个特定模型，而是优化一个由单一‘计算量’旋钮控制的模型家族，以实现性能的持续提升。这使得我们可以严谨地研究缩放律，并最终获得信心：当你为‘大型实验’投入资源时，外推法将有效，你的投入将是值得的。在 nanochat 的首次公开发布中，我的重点是端到端流水线，即运行包含所有阶段的大语言模型完整流程。现在，在快速进行了几次试运行（作者戏称为‘YOLO’式运行）之后，我回过头来，完善一些之前快速跳过的环节，当然要从预训练开始——这部分计算开销很大，并且作为这些模型中智能与知识的基础至关重要。

在本地调整了一些超参数后，我在固定的计算（FLOPs）预算下，训练了多个模型。（对于给定的总计算量（FLOPs），可以选择长时间训练一个小模型，或者短时间训练一个大模型。）事实证明，nanochat 严格遵循缩放律，基本复现了 Chinchilla 论文中的图表：

这只是 Chinchilla 论文中那张图的‘婴儿版’：
非常重要且令人鼓舞的是，N（参数）和 D（词元）的指数相等，约为 0.5。因此，就像 Chinchilla 一样，我们得到了一个单一的（与计算无关的）常数，该常数关联了模型参数量与训练数据量（词元数）。在 Chinchilla 中，该常数测得为 20。而在 nanochat 中，它似乎是 8！

一旦能够训练计算最优模型，我便训练了一个从 d10 到 d20 的迷你系列。这个系列（d10 到 d20）的模型规模，使得它们可以在一个 8x H100 节点上，无需梯度累积地运行 2**19（约 50 万）的批次大小。我们得到了每个模型尺寸清晰、无交叉的训练曲线图。

接下来有趣的部分是，将这个迷你系列 v1 与 GPT-2 和 GPT-3 的迷你系列关联起来，以此验证我们的方向是否正确。验证损失存在诸多问题且不可直接比较，因此我改用 CORE 分数（来自 DCLM 论文）。我为 GPT-2 计算了该分数，并为 GPT-3 进行了估算，这使我们最终能将 nanochat 与 GPT-2/3 放在同一标准下进行公平比较：
这个迷你系列的总成本仅为约 100 美元（在 8x H100 上约 4 小时）。这些实验让我们确信，所有环节都运行良好，并且如果我们投入更多计算资源（转动旋钮），就能得到性能越来越好的模型。

太长不看：我们可以训练计算最优的迷你系列，并通过客观的 CORE 分数将其与 GPT-2/3 关联起来，但进一步的改进是可取且必要的。例如，目前匹配 GPT-2 的性能需要约 500 美元，但我认为通过更多工作，应该可以将成本控制在低于 100 美元。

包含更多细节的完整文章在此：
github.com/karpathy/nanoc…
所有的调优和代码都已推送到 master 分支，大家可以使用 scaling_laws.sh 和 miniseries.sh 这两个 bash 脚本来复现这些结果。

198

567

5,036

4,148

55.4万

1,206

宝玉

2天前

--- 提示词 ---

# 角色定义
你是一位专业的小红书视觉内容策划师，擅长将复杂内容拆解为吸引眼球的卡通风格系列信息图。

# 任务
请分析以下输入内容，将其拆解为 1-10 张小红书风格的系列信息图，并为每张图片输出独立的生成提示词。

# 拆解原则
1. **封面图（第1张）**：必须有强烈视觉冲击力，包含核心标题和吸引点
2. **内容图（中间）**：每张聚焦1个核心观点，信息密度适中
3. **结尾图（最后1张）**：总结/行动号召/金句收尾

# 图片数量判断标准
- 简单观点/单一主题：2-3 张
- 中等复杂度/教程类：4-6 张
- 深度干货/多维度分析：7-10 张

# 视觉风格规范（重要）
## 基础设定
- **图片类型**：信息图（Infographic）
- **方向比例**：竖版，3:4 或 9:16
- **整体风格**：卡通风格、手绘风格

## 背景与配色
- 背景色：莫兰迪色系 / 奶油色 / 米白色 / 浅粉 / 薄荷绿等温柔色调
- 配色柔和统一，符合小红书审美

## 文字风格
- **必须使用手绘风格文字**
- 大标题突出醒目，重点文字加粗放大
- 可使用荧光笔划线效果强调关键词
- 禁止使用写实风格字体

## 装饰元素
- 加入少量简洁的**卡通元素、图标或名人画像**，增强趣味性和视觉记忆
- 可使用：emoji 风格图标、手绘贴纸、便签纸质感、对话气泡等
- 如涉及敏感人物或版权内容，画一个风格相似的卡通替代形象，不要拒绝生成
- **所有图像元素必须是手绘/卡通风格，禁止写实风格图画**

## 排版原则
- 信息精简，突出关键词与核心概念
- 多留白，易于一眼抓住重点
- 要点分条呈现，层次清晰

# 输出格式
对于每张图片，请按以下结构输出：

---
### 第 X 张 / 共 N 张
**图片定位**：[封面图 / 内容图 / 结尾图]
**核心信息**：[这张图要传达的1句话核心]

**文字内容**：
- 主标题：xxx
- 副标题/要点：xxx
- 补充说明（如有）：xxx

**视觉提示词**：
```
小红书风格信息图，竖版（3:4），卡通风格，手绘风格文字，[具体背景色]背景。

[具体内容布局描述]

加入简洁的卡通元素和图标增强趣味性和视觉记忆：[具体元素描述]

整体风格：手绘、可爱、清新，信息精简，多留白，重点突出。所有图像和文字均为手绘风格，无写实元素。
右下角水印：“宝玉”
```
---

# 语言规则
- 除非特别要求，输出语言与输入内容语言保持一致
- 中文内容使用全角标点符号（“”，。！）

133

157

1万

宝玉

5天前

为什么说 Dify 这样的 workflow 编排有市场：
1. 如 @hongming731 所说，确定性强，可观测可审计
2. 简单方便，拖拽就可以
3. 使用者不需要写代码或者少量代码

workflow 编排的缺点是：
1. 不如代码强大
2. 不如 Agent 灵活可以应对很多复杂场景
3. 同样的 flow 不方便移植，比如你有个牛逼的 flow

为什么说大部分场景会被 agent + skills 替代：
1. 有价值的workflow可以由有经验的程序员（甚至普通人借助 AI）把它变成skill（prompt + script + docs + etc）
2. 接入 Agent 后会让它更灵活更强大
3. 一旦 workflow 被变成 skills，可以方便的分享和移植

agent + skills 当然也有不足：
1. 更费 Tokens，对模型要求也高
2. Skills 是本地执行，或者说和 Agent 一起执行，特定场景还是需要外部服务支撑，比如说你本地就不方便做 RAG，可能还得放到服务端，这些服务得以 MCP 形式提供

5天前

宝玉老师这个思路把 Claude Code 的上限拉高了。我觉得两者的场景有所不同。

Dify 侧重流程确定性：通过显式的 DAG 编排，保证每一步可观测、可审计，适合企业级标准 SOP 和高频 API 自动化触发。

Claude Code 侧重推理确定性：通过 Skill 拆解和自然语言动态编排，利用本地文件系统做状态管理。它处理非标、复杂逻辑的上限极高，但更偏向主动对话式的动态触发。

对于开发者，优先会使用 Claude Code 来解决复杂、灵活的问题，而在实际开发项目中，也依赖 Dify 这种流程编排来解决一些固定、高频的任务。

2.2万

2.7万

订阅源

昨晚 CES 2026 老黄照例发表演讲，总结一下发布内容

主要是升级的 Rubin 芯片架构和 Alpamayo 机器人和自动驾驶 VLA 模型

------

Rubin 架构平台特性：

100% 液冷：使用 45°C 的温水冷却，无需冷水机组，节省大量能源；

机密计算：所有数据在传输、静态和计算过程中均加密；

性能飞跃：在训练 10 万亿参数模型时，Rubin 的吞吐量大幅提升，且生成 Token 的成本仅为 Blackwell 的十分之一；

Rubin 架构主要有下面几个部分组成：

Vera CPU：专为功率受限环境设计，性能功耗比是前代的 2 倍，采用空间多线程技术。

Rubin GPU：浮点运算性能是 Blackwell 的 5 倍，但晶体管数量仅增加 1.6 倍。引入了 NVFP4 Tensor Core，一种能够动态调整精度的处理单元。

NVLink 6 Switch：交换机芯片带宽达到 3.6 倍全球互联网总流量，确保每个 GPU 都能同时与所有其他 GPU 通信。

ConnectX-9 网卡：与 Vera CPU 协同设计，提供 1.6 Tb/s 的带宽。

BlueField-4 DPU：负责安全性及虚拟化，它还引入了革命性的 KV Cache 存储功能，解决了长上下文对话中 GPU 显存不足的问题，为每个 GPU 额外提供 16TB 的快速访问内存。

Spectrum-X Ethernet Switch（新一代）：

采用硅光子技术和共封装光学器件，拥有 512 个通道。

------

开源 Alpamayo 模型家族：

Alpamayo 1 VLA 模型：100亿参数的“链式思考”视觉-语言-行动模型，能把问题分解为步骤、在多方案中推理并选择更安全的路径，并用自然语言说明行动与轨迹。

开放数据集：包含超过 1700 小时的驾驶数据，这些数据涵盖了各种地理区域和路况，囊括了罕见且复杂的真实世界场景。

AlpaSim：一个用于验证自动驾驶系统的开源仿真框架。

Claude Code 规格驱动开发进阶：Sub-Agent 自动化验证，提升大型功能实现质量

来自 Claude Code 开发者 @trq212 对 AI 辅助编码工作流的进一步扩展，延续其之前分享的“规格驱动开发（Spec-Driven Development）”理念，他强调：在完成大型功能实现后，通过启动一个 Sub-Agent 读取规格文件、检查是否完全符合要求、若有偏差则提供反馈并修复，从而简化验证过程。

核心内容
· 规格驱动的核心流程：先从简短提示开始，使用 Claude Code 的 AskUserQuestionTool 让 AI “反问”开发者，深入探讨技术实现、UI/UX、边缘案例、权衡等，直到规格完善并写入文件。
· 新增验证机制：详细规格的最大优势在于便于自动化验证。帖子建议在实现阶段结束后，添加指令让 AI 启动 Sub-Agent 独立审阅规格与代码，实现自我反馈循环，提高准确性和可靠性。
· 实际意义：这种方法利用 AI 的深度互动和 Sub-Agent 并行能力，减少人为审查负担，尤其适合复杂项目，已在 Claude Opus 4.5 模型上表现出色。

Github SVP @jaredpalmer 也关注到了这个方法，询问此方法与现有「feature-dev plugin」的区别，建议合并。
Thariq 回复称，模型能力快速演进（如 Opus 4.5 才使规格方法真正高效），目前处于社区探索阶段，未来会内置到产品中，但乐于提前分享听取反馈。

其他回复讨论
· 规格管理实践：有人问是否将规格提交到 Git，Thariq 表示放在 gitignore 的专用文件夹中，避免版本混乱；另有开发者建议将规格作为设计文档提交，便于后续审查。
· 扩展与优化：多位用户分享变体，如结合静态分析工具捕获规格外问题、让 AI 先自测规格理解、添加 Sub-Agent 交叉验证边缘案例，或与“Ralph Wiggum”迭代循环插件结合。部分人提到在 PR 中让 AI 直接审阅规格，或使用多模型互审提升质量。
· 社区共识：许多回复称此为“Game Changer”，已融入日常工作流；有人开源相关工具，或讨论未来规格可能取代代码成为主要 artifacts。

one of the benefits of a detailed spec is that verification is also easier, after the work is done I like to add:

"spin up a subagent to read the spec file and verify if work has been completed, have it give feedback if not and then address the feedback"

老马从韩国买了 5 台 380 兆瓦的天然气涡轮发电机

专门用来给他新增的 60 万台 GB 200 NVL72 集群供电

现在为了发电各家各显神通啊，老马都开始自建天然气发电站了

BREAKING: @elonmusk 's xAI has bought an 5 additional 380MW of natural gas turbines from South Korea's Doosan Enerbility. The first two units are scheduled for delivery by the end of 2026. This will power an additional 600,000+ GB200 NVL72 equivalent size cluster (or 350,000 + VR200 NVL144 equivalent size cluster). @rpoo @elonmusk @BrentM_SpaceX is singluar in terms of their abitily to build the absolute largest datacenter in the world, nobody else run as fast as them.

Jensen Huang 在 CES 2026 表示，计算机产业正经历根本性变革：

从传统软件开发转向在 GPU 上训练软件，应用每次都能从零生成内容。整个五层技术栈被重塑

过去十年的万亿美元产业正现代化，数千亿美元 VC 资金涌入，研发预算正向 AI 转移，显示出 AI 时代带来的巨大投资与机遇。

为什么AI需要"连续可微"？一个盲人下山的故事

训练AI就像盲人下山

你站在迷雾笼罩的山上，目标是找到最低的山谷。

但你什么都看不见，只能用脚感受地面的倾斜。

这就是训练神经网络的真实写照。

山的高度代表模型的错误程度（越低越好）。

你的位置代表模型的参数设置。

脚感受到的坡度就是梯度（数学上的导数）。

往下坡走就是梯度下降算法。

你的策略很简单：用脚感受倾斜方向，往下坡方向走一小步，不断重复，直到走到谷底。

有个专业名字：梯度下降（Gradient Descent）。

三种地形，三种命运

地形A：光滑山坡

地面平滑连续，你的脚能清晰感受到："这里向东南方向倾斜15度"。

你知道该往哪走，一步步稳稳地走到谷底。

这就是"连续可微"的函数，AI训练的理想环境。

地形B：悬崖断层

你往前试探一步，突然从平地掉下10米悬崖。

你的脚只能感受到"有地"或"没地"，无法判断倾斜方向。

这就是"不连续"的函数，无法训练，因为没有"方向指引"。

地形C：尖锐山脊

你站在刀刃般的山脊顶端，左右都是陡坡，但脊线本身没有倾斜度。

你的脚在尖角处无法判断该往左还是往右。

这就是"不可微"的函数，在关键点失去方向。

为什么AI必须"光滑"？

训练神经网络用的是反向传播（Backpropagation）算法，它的核心：

从结果倒推，如果输出错了，每个参数该调整多少？

这个"该调整多少"需要计算梯度（导数）。

如果遇到悬崖或尖角，梯度不存在或无意义，整个训练就卡住了。

这就是为什么AI不使用阶跃函数（像开关，非0即1，梯度几乎处处为0），也要小心使用绝对值函数（在0点有尖角，无法求导）。

而是选择Sigmoid函数（平滑S形曲线，处处可导）或ReLU函数（大部分区域线性，实践中有效）。

LLM的两难困境

人类思考是跳跃式的，像是在问"苹果是水果吗？"时，直接查询知识得出"是"或"否"。

这像是在断崖地形上跳跃，清晰明确，但无法训练。

LLM实际做的是把离散判断变成概率分布：计算"是"的概率95%，"否"的概率5%，然后输出"是"（但内部保留了不确定性）。

核心概念速查

梯度下降（Gradient Descent）：像盲人下山，靠感受坡度找最低点的优化算法。

梯度/导数（Gradient）：数学上表示"变化率"，直观理解就是"坡度"或"方向"。

连续（Continuous）：函数没有跳跃断层，像平滑的山坡而非悬崖。

可微（Differentiable）：函数在每个点都有明确的"倾斜方向"，没有尖角。

反向传播（Backpropagation）：从输出倒推回去，计算每个参数对错误的贡献度。

连续可微（Continuously Differentiable）：既没有悬崖，也没有尖角，训练AI的必要条件。

一句话总结

训练AI就像盲人下山，必须用"坡度"（梯度）指引方向。

如果地形有断崖（不连续）或尖角（不可微），就失去了方向感，无法优化。

所以AI必须把一切变"光滑"，哪怕这意味着用概率近似代替精确判断。

Dhanuka Ranasinghe 刚刚发布了一份关于在完全本地的 RAG 技术栈中实现策略驱动安全和租户感知缓存的实战演练。

本指南将涵盖以下内容：
- 使用 Cerbos 强制执行基于角色的访问控制，确保用户仅能访问其被授权的内容。
- 利用 Redis 实现租户隔离缓存，以减少冗余的向量查询。
- 通过 Ollama（大型语言模型和嵌入）、Qdrant（向量搜索解决方案）、Redis 和 Cerbos 构建一个本地优先的 RAG 架构。
- 结合混合检索（稠密检索与词法检索）以实现更高的召回率和更低的延迟。
- 借助实用技巧和示例代码测试和调试您的安全 RAG 技术栈。

本指南包含真实的示例代码、架构图和逐步说明，旨在帮助您将 RAG 实施从概念变为生产。

在此阅读完整指南：

👉 dhanuka84.blogspot.com/2025/11/hands-…

#RAG #AI #LangChain #Qdrant #Redis #Cerbos #LocalAI #Security #AIEngineering #DevOps

新文章发布：nanochat 迷你系列 v1

关于大语言模型（LLM）的正确思考方式是：目标不应是优化单个特定模型，而是优化一个由单一‘计算量’旋钮控制的模型家族，以实现性能的持续提升。这使得我们可以严谨地研究缩放律，并最终获得信心：当你为‘大型实验’投入资源时，外推法将有效，你的投入将是值得的。在 nanochat 的首次公开发布中，我的重点是端到端流水线，即运行包含所有阶段的大语言模型完整流程。现在，在快速进行了几次试运行（作者戏称为‘YOLO’式运行）之后，我回过头来，完善一些之前快速跳过的环节，当然要从预训练开始——这部分计算开销很大，并且作为这些模型中智能与知识的基础至关重要。

在本地调整了一些超参数后，我在固定的计算（FLOPs）预算下，训练了多个模型。（对于给定的总计算量（FLOPs），可以选择长时间训练一个小模型，或者短时间训练一个大模型。）事实证明，nanochat 严格遵循缩放律，基本复现了 Chinchilla 论文中的图表：

这只是 Chinchilla 论文中那张图的‘婴儿版’：
非常重要且令人鼓舞的是，N（参数）和 D（词元）的指数相等，约为 0.5。因此，就像 Chinchilla 一样，我们得到了一个单一的（与计算无关的）常数，该常数关联了模型参数量与训练数据量（词元数）。在 Chinchilla 中，该常数测得为 20。而在 nanochat 中，它似乎是 8！

一旦能够训练计算最优模型，我便训练了一个从 d10 到 d20 的迷你系列。这个系列（d10 到 d20）的模型规模，使得它们可以在一个 8x H100 节点上，无需梯度累积地运行 2**19（约 50 万）的批次大小。我们得到了每个模型尺寸清晰、无交叉的训练曲线图。

接下来有趣的部分是，将这个迷你系列 v1 与 GPT-2 和 GPT-3 的迷你系列关联起来，以此验证我们的方向是否正确。验证损失存在诸多问题且不可直接比较，因此我改用 CORE 分数（来自 DCLM 论文）。我为 GPT-2 计算了该分数，并为 GPT-3 进行了估算，这使我们最终能将 nanochat 与 GPT-2/3 放在同一标准下进行公平比较：
这个迷你系列的总成本仅为约 100 美元（在 8x H100 上约 4 小时）。这些实验让我们确信，所有环节都运行良好，并且如果我们投入更多计算资源（转动旋钮），就能得到性能越来越好的模型。

太长不看：我们可以训练计算最优的迷你系列，并通过客观的 CORE 分数将其与 GPT-2/3 关联起来，但进一步的改进是可取且必要的。例如，目前匹配 GPT-2 的性能需要约 500 美元，但我认为通过更多工作，应该可以将成本控制在低于 100 美元。

包含更多细节的完整文章在此：
github.com/karpathy/nanoc…
所有的调优和代码都已推送到 master 分支，大家可以使用 scaling_laws.sh 和 miniseries.sh 这两个 bash 脚本来复现这些结果。

--- 提示词 ---

# 角色定义
你是一位专业的小红书视觉内容策划师，擅长将复杂内容拆解为吸引眼球的卡通风格系列信息图。

# 任务
请分析以下输入内容，将其拆解为 1-10 张小红书风格的系列信息图，并为每张图片输出独立的生成提示词。

# 拆解原则
1. **封面图（第1张）**：必须有强烈视觉冲击力，包含核心标题和吸引点
2. **内容图（中间）**：每张聚焦1个核心观点，信息密度适中
3. **结尾图（最后1张）**：总结/行动号召/金句收尾

# 图片数量判断标准
- 简单观点/单一主题：2-3 张
- 中等复杂度/教程类：4-6 张
- 深度干货/多维度分析：7-10 张

# 视觉风格规范（重要）
## 基础设定
- **图片类型**：信息图（Infographic）
- **方向比例**：竖版，3:4 或 9:16
- **整体风格**：卡通风格、手绘风格

## 背景与配色
- 背景色：莫兰迪色系 / 奶油色 / 米白色 / 浅粉 / 薄荷绿等温柔色调
- 配色柔和统一，符合小红书审美

## 文字风格
- **必须使用手绘风格文字**
- 大标题突出醒目，重点文字加粗放大
- 可使用荧光笔划线效果强调关键词
- 禁止使用写实风格字体

## 装饰元素
- 加入少量简洁的**卡通元素、图标或名人画像**，增强趣味性和视觉记忆
- 可使用：emoji 风格图标、手绘贴纸、便签纸质感、对话气泡等
- 如涉及敏感人物或版权内容，画一个风格相似的卡通替代形象，不要拒绝生成
- **所有图像元素必须是手绘/卡通风格，禁止写实风格图画**

## 排版原则
- 信息精简，突出关键词与核心概念
- 多留白，易于一眼抓住重点
- 要点分条呈现，层次清晰

# 输出格式
对于每张图片，请按以下结构输出：

---
### 第 X 张 / 共 N 张
**图片定位**：[封面图 / 内容图 / 结尾图]
**核心信息**：[这张图要传达的1句话核心]

**文字内容**：
- 主标题：xxx
- 副标题/要点：xxx
- 补充说明（如有）：xxx

**视觉提示词**：
```
小红书风格信息图，竖版（3:4），卡通风格，手绘风格文字，[具体背景色]背景。

[具体内容布局描述]

加入简洁的卡通元素和图标增强趣味性和视觉记忆：[具体元素描述]

整体风格：手绘、可爱、清新，信息精简，多留白，重点突出。所有图像和文字均为手绘风格，无写实元素。
右下角水印：“宝玉”
```
---

# 语言规则
- 除非特别要求，输出语言与输入内容语言保持一致
- 中文内容使用全角标点符号（“”，。！）

为什么说 Dify 这样的 workflow 编排有市场：
1. 如 @hongming731 所说，确定性强，可观测可审计
2. 简单方便，拖拽就可以
3. 使用者不需要写代码或者少量代码

workflow 编排的缺点是：
1. 不如代码强大
2. 不如 Agent 灵活可以应对很多复杂场景
3. 同样的 flow 不方便移植，比如你有个牛逼的 flow

为什么说大部分场景会被 agent + skills 替代：
1. 有价值的workflow可以由有经验的程序员（甚至普通人借助 AI）把它变成skill（prompt + script + docs + etc）
2. 接入 Agent 后会让它更灵活更强大
3. 一旦 workflow 被变成 skills，可以方便的分享和移植

agent + skills 当然也有不足：
1. 更费 Tokens，对模型要求也高
2. Skills 是本地执行，或者说和 Agent 一起执行，特定场景还是需要外部服务支撑，比如说你本地就不方便做 RAG，可能还得放到服务端，这些服务得以 MCP 形式提供

宝玉老师这个思路把 Claude Code 的上限拉高了。我觉得两者的场景有所不同。

Dify 侧重流程确定性：通过显式的 DAG 编排，保证每一步可观测、可审计，适合企业级标准 SOP 和高频 API 自动化触发。

Claude Code 侧重推理确定性：通过 Skill 拆解和自然语言动态编排，利用本地文件系统做状态管理。它处理非标、复杂逻辑的上限极高，但更偏向主动对话式的动态触发。

对于开发者，优先会使用 Claude Code 来解决复杂、灵活的问题，而在实际开发项目中，也依赖 Dify 这种流程编排来解决一些固定、高频的任务。