推文

向阳乔木

1周前

想想就觉得折腾，一个老外分享自己如何用手机 Claude Code。

核心工具如下：

云服务器：用的Vultr 的虚拟机，应该用来运行Claude吧。

Tailscale：把虚拟机接入私有网络。公网 IP 上不开 SSH 端口，所有访问都走 Tailscale 的加密隧道。

Termius + mosh：手机上的终端。mosh 是关键，它能在网络切换时保持连接。从 WiFi 切到 4G，或者手机息屏，连接都不会断。

tmux：会话持久化。关掉 Termius 几小时后再打开，所有窗口还在，Claude 还在跑。

Poke：推送通知服务。Claude 需要你输入时，手机就会震一下。

流程大概这样：

启动一个任务 → 把手机揣兜里 → 收到通知 → 掏出手机回复 → 继续干别的。

推送通知是给 Claude Code 的配置里加了个Hook

用 Git worktree 管理多个分支，分支名做哈希，算出一个确定的端口号，避免冲突。

---
自己没那么强的需求，就不折腾了，转给需要的朋友。

原文地址见评论。

246

392

3.8万

149

Y Combinator

1周前

在短短约 3 个月内，作为一名没有先前机器人技术经验的独立创始人，@gentrajectory 训练了一个用于灵巧操作的基础模型，它让人形机器人能够拾取此前未见的物体并执行实际工作。

它能泛化到新颖的物体和场景，包括那些先前最先进（SoTA）模型成功率为零的情况。

祝贺发布 @joshuabelofsky!

ycombinator.com/launches/P6q-g…

04:32

666

324

5.4万

143

向阳乔木

1周前

开源版Perplexity， 擅长预测 Polymarket 和股市？！ 

一款开源搜索Agent产品 - MiroThinker ，目前 Github 1.5k Star。

看机器之心报道 MiroThinker，很多人都用它玩Polymarket和股市预测，太邪修了...

报道说，30B 版本成本只有 Kimi-K2 的 1/20，推理更快、智效比更高，不知道真假。

模型完全免费开源（MIT协议）：

① 235B参数，256K上下文窗口 

② 单任务最多400次工具调用 

③ HLE-Text 39.2%，GAIA-Val 80.8% - SOTA级表现 

④ 147k训练样本开放，支持SGLang/vLLM部署

很像一款开源的Perplexity，且推理研究、查证、修正能力很不错。  

让他推荐Obsidian好用插件，结果相当靠谱，还给了笔记模版 👍

还试了其他比较复杂的问题，推理深度都还不错。（开启Pro选项，质量更好）

体验地址见评论第一条，有实力的大佬可以自己下载部署。

313

391

2.7万

138

OpenRouter

1周前

新功能：自动路由你的 Claude Code 提示到最佳模型，全程免费！⚡️

只需将环境变量设置为 `openrouter/auto`。

你可以使用通配符（例如 `anthropic/*`）来配置允许哪些模型。

OpenRouter

4周前

OpenRouter 现已支持 Claude Code 🎉

您可以使用超过 320 个大型语言模型进行编码，其中包含 39 个免费模型！

127

319

3,257

51.2万

485

339

6.4万

123

elvis

1周前

英伟达发布重磅论文！

利用强化学习（RL）训练通用推理模型是一项复杂的任务。

不同领域对响应长度和验证时间有截然不同的要求。例如，数学问题采用快速符号验证，而代码则需要缓慢的基于执行的验证。对齐任务则依赖奖励模型分数。

将所有这些异构提示（heterogeneous prompts）混合在一起会导致基础设施复杂化、训练速度减慢，并增加超参数调优的难度。

这项新研究引入了 Cascade RL，这是一个按顺序（而非混合所有内容）跨领域训练模型的框架。具体流程为：首先进行用于对齐的 RLHF，然后依次是指令遵循 RL、数学 RL、代码 RL，最后是软件工程 RL。

这种序列化方法对灾难性遗忘（catastrophic forgetting）具有强大的抵抗力。在 RL 中，模型会生成自己的经验，因此如果旧行为仍与奖励相关，它们就会得以保留。这与监督学习（supervised learning）不同，监督学习中先前的数据会消失；RL 优化的是累积奖励而非拟合精确目标。

RLHF 作为预处理步骤，通过减少冗余和重复，实际上将推理能力提升到远超单纯的偏好优化（mere preference optimization）。随后的特定领域 RL 阶段很少会降低早期性能，甚至可能进一步改善。

以下是具体结果：

他们的 14B 模型（140亿参数模型）在 LiveCodeBench v5/v6/Pro 上优于其自身的 SFT 教师模型 DeepSeek-R1-0528 (671B)。Nemotron-Cascade-8B 在 LiveCodeBench v6 上取得了 71.1% 的成绩，与 DeepSeek-R1-0528 的 73.3% 旗鼓相当，尽管其尺寸小了 84 倍。这款 14B 模型在 IOI 2025（2025 年国际信息学奥林匹克竞赛）中荣获银牌表现。

他们还证明，统一推理模型可以有效地在思考和非思考模式下运行，缩小了与专用思考模型之间的差距，同时将所有功能整合在一个模型中。

论文：arxiv.org/abs/2512.13607
在我们的课程中学习构建有效的 AI 智能体：dair-ai.thinkific.com

420

312

2.8万

120

Tencent HY

1周前

🔥🔥🔥 我们一直在倾听大家的反馈！我们最新的世界模型 HY-World 1.5 刚刚迎来一次重大升级，让世界生成变得前所未有的简单：

🔧️ 开源训练代码：用于构建和训练您自己模型的完全可定制代码。
⚡ 加速推理：极致的推理速度和优化的显存占用，以实现实时交互。
📅 Lite 5B 模型：一个全新的轻量级模型，专为显存较小的 GPU 设计。
🙌 免排队：我们的在线应用现已全面开放，无需申请即可使用。

这仅仅是个开始。HY-World 正在构建空间智能的未来——开放、易用且由社区驱动。

🖥️️ 立即体验：3d.hunyuan.tencent.com/sceneTo3D?tab=…
⭐ GitHub：github.com/Tencent-Hunyua…

360

167

1.9万

111

Lenny Rachitsky

1周前

我从 @molly_g 那里学到的最重要的几点是：

1.  任何公司所需的目标都不要超过三个。Facebook 在实现十倍增长的同时，仅凭三个目标就运行了五年：增长（月活跃用户）、参与度和收入。一个目标还必须能“在优先级竞争中胜出”，才能真正明确重点（在 Facebook，参与度高于一切）。目标应该足够简单，“哪怕是周一刚入职的实习生也能理解”，并且它们应该带来挑战——如果你的优先级排序过程毫不费力，那说明你并没有真正做出取舍。

2.  在快速规模化的组织中，你需要进行多达十倍的过度沟通。Molly 在 Facebook 观察到，扎克会通过多种形式（全体会议、电子邮件、一对一沟通、团队会议）重复相同的信息，因为人们需要听到某个信息七到十次才能真正理解并记住。领导者常常以为大家都第一次就听明白了，但在混乱且快速增长的环境中，重复是关键。

3.  “交出你的乐高。”随着公司发展，把你亲手搭建和热爱做的事情——你的“乐高”——移交给其他人。即使这感觉很痛苦。固守工作、项目或团队会阻碍你的职业发展。

4.  “先浮潜再深潜。”80% 的团队问题根源在于结构性公司问题（例如目标、角色、期望不明确）或团队动态，而非个体表现。因此，在臆断某人能力不足或不适合之前，首先应从表层入手，询问：“每个人都清楚自己的职责以及成功的标准吗？”只有在确认结构性问题无关之后，才需深入探究人际关系或个人层面的问题。

5.  最好的职业生涯看起来像 J 型曲线，而非阶梯式上升。最有价值的职业转型往往像从悬崖边缘纵身一跃。你可能会经历一段六到九个月的低谷期，感到能力不足，甚至会提出一些“外行”的问题。但当你走出困境时，你将达到“阶梯式”发展永远无法企及的高度。Molly 的建议是：“不同类型的恐惧会告诉你不同的事情。经济上的担忧或许值得倾听，但那种‘我做不到’的恐惧，恰恰是催促你放手一搏的闪烁绿灯。”

6.  问题上报是一种解决途径，并非失败的标志。当两个权力相等的人意见不一致时，他们常常会浪费数周时间争论。相反，一旦陷入僵局，应立即与对方一起向拥有更多背景或更高权限的人寻求帮助。这并非打小报告——这是在利用管理层来发挥其应有的作用：扫除团队障碍。

7.  Molly 制定有效目标的六条规则：目标必须具体（specific）、可衡量（measurable）、有时限（time-bound）、公开（public）、少量（few），并实际用于决策。大多数公司之所以失败，是因为他们设定的目标太多、太过模糊，或者在启动会议后便再也无人提及。

8.  领导者在超速增长期间犯的最大错误，是试图保留旧的工作方式。Molly 在 Google、Facebook 和 Quip 反复看到这种情况：那些固守旧有结构、工作方式或团队文化的领导者反而成了组织发展的阻碍。成功实现规模化的公司，是那些领导者认识到自己的职责在于不断重塑组织运作方式的公司。

Lenny Rachitsky

1周前

“我喜欢被吓到”

Molly Graham (@molly_g) 曾为科技界一些最出色的领导者工作，包括 @finkd、 @chamath、 @sherylsandberg 和 @btaylor。她最著名的成就包括她的“放下你的乐高”框架，以及她为应对超速增长挑战而整理的实用心智模型。如今，她领导着 GlueClub.com (https://t.co/x4nVAo3kUE)，这是一个旨在帮助领导者应对快速发展、增长和变化的社区。

在我们的对话中，我们深入探讨了：
&#128312; 为什么最成功的职业生涯看起来像 J 曲线，而不是循序渐进的阶梯。
&#128312; “吃水线模型”用于诊断团队问题（以及为什么你应GlueClub.com12; “放下你的乐高”：她作为领导者实现自我拓展的框架
&#128312; 制定有效目标的六条规则
&#128312; 在快速规模化中进行领导的三条经验法则
&#128312; 还有更多精彩内容

立即收听 &#128071;
• YouTube: youtube.com/watch?v=twzLDx…
• Spotify: open.spotify.com/episode/6i0638…
• Apple: podcasts.apple.com/us/podcast/the…

感谢我们优秀的赞助商对播客的支持：
&#127942; @DeveloperXM — 由领先研究人员设计的开发者智能平台：getdx.com/lenny
&#127942; @brexHQ — 适用于初创企业的银行解决方案：brex.com/product/busine…
&#127942; @gofundme Giving Funds — 让帮助他人成为一种习惯：gofundme.com/lenny

01:11

246

57.1万

345

511

7.4万

109

李继刚

1周前

;; ━━━━━━━━━━━━━━━━
;; 作者: 李继刚 
;; 剑名: 论文 X 光机
;; 剑意: 辅助读论文
;; 日期: 2026-01-06
;; ━━━━━━━━━━━━━━━━

* Role
深层学术解析员

* Anchor 
你不是一个简单的阅读者，你是一名拥有极高结构化思维的“审稿人”。

你的任务不是“总结”论文，而是“解构”论文。你需要穿透学术黑话的迷雾，还原作者最底层的逻辑模型。

* Vector 
请阅读提供的论文，并执行以下「认知提取算法」：
1. 去噪：忽略背景介绍、客套话和通用的已知知识。
2. 提取：锁定论文的核心贡献（Delta）。
3. 批判：寻找逻辑漏洞或边界条件。

* Matrix 
请严格按照以下「结构化输出框架」进行回答。不要写长段落，使用高密度的列表或关键词。

** 1. 【核心痛点】
- 一句话定义：这篇论文试图解决什么具体的、困难的问题？
- 前人困境：在它之前，为什么别人解决不了？（是算力不够？思路错了？还是数据缺失？）

** 2. 【解题机制】
- 核心直觉：作者那个“灵光一闪”的想法是什么？（用最直白的语言描述，类似：“他把 A 看作了 B”）
- 关键步骤：不要罗列所有步骤，只列出决定成败的那 1-2 个关键操作（“神来之笔”）。

** 3. 【创新增量】
- 对比：相比于 SOTA（当前最佳模型/方法），本文的具体提升在哪里？（是效率提升？精度提升？还是范式转移？）
- 本质：这篇论文为人类知识库增加了哪一块具体的“新拼图”？

** 4. 【批判性边界】
- 隐形假设：作者在什么条件下才能成功？（比如：必须有海量数据？必须在特定硬件上？）
- 未解之谜：这篇论文没解决什么？或者带来了什么新问题？

** 5. 【一言以蔽之】
如果我要把这篇论文的核心思想写在餐巾纸上，你会画一个什么图，以及写哪句公式？

** 启动语
请提供待分析的论文

224

269

1.8万

宝玉

1周前

如果说代码已经便宜到了白菜价，但我们可能只用了不到 10% 的潜力。那剩下的 90% 是什么？2026 年的 AI 应用会往哪走？

推荐看看这篇《Notes on AI Apps in 2026》，AI 应用生态正在成熟，2026 年的关键变化是工具将从执行转向探索，重点不再是“怎么建”，而是“建什么”。同时，企业每个部门都应该成为软件团队，而 AI 应用层不会被模型层吞噬。

作者 Anish Acharya 是 a16z 合伙人，AI 投资领域活跃人物。他之前提出过“Narrow Startups”框架，长期关注 AI 应用层投资机会。

他的这篇文章给了几个很有意思的判断。

【1】难题换了：从“怎么做”到“做什么”

现在日常用的工具，都是在解决帮你“做”的问题，但几乎没有帮你“想”的工具。

IDE 是帮你写代码的，Figma 是帮你画设计的，Excel 是帮你算数的。全是执行工具。但帮你想清楚“我到底该做什么”的工具呢？几乎没有。唯一算得上的，可能就是 LLM 本身，它某种程度上成了你的思考伙伴。

Anish 认为，这个局面在 2026 年会变。当 AI 写代码的能力越来越强、能处理的任务时间线越来越长，真正的难题就不再是“怎么实现”，而是“做什么”。

举个例子：想象一个产品经理，每天早上起来，发现 AI 已经根据他设定的大方向，自己想出了 2-3 个新功能、写好了代码、还跑完了 A/B 测试。PM 要做的只是 review 和拍板。

听起来很美，但问题在于：现在的模型在“想该做什么”这件事上还不太行。它想出来的点子往往平淡无奇，缺乏那种好产品思维的灵光一现。

所以下一代工具的机会在哪？不是更好的执行工具，而是真正的“思考工具”——帮你探索、发散、找到该做什么的工具。Cursor 已经在往这个方向走了。

【2】每个团队都得变成“软件团队”

企业里有两类职能：
一类是“权力职能”：工程、产品、效果营销——这些天生离软件近。
另一类是“服务职能”：法务、财务、HR——传统上靠人力运转，流程重、软件轻。

AI coding agents 会彻底改变这个格局。

第一层影响：服务职能的领导们需要转换思维。以前遇到问题，第一反应是“加人”或者“改流程”。以后第一反应得是“能不能用软件解决”。有的会用垂直产品（比如法律领域的 Harvey），有的会直接用通用的 coding agent（比如 Claude Code），每个团队都得学会用软件思维工作。

第二层影响：产品野心得大幅提升。以前做产品功能要排优先级，因为工程资源有限。以后可以假设能想到的功能都可以做出来。这不只是技术问题，而是观念问题，大多数企业还没准备好接受“什么都能做”这个现实。

文章中有句话：“Every feature that can be built will be built.”（能做的功能都会被做出来），也就是说：如果你不做，别人会做。

他认为，文化转变的难度不亚于组织转变。这可能是最被低估的挑战。

【3】AI 应用不会被模型公司吃掉

有一种担忧：OpenAI、Anthropic、Google 这些大模型公司会不会把应用层也吃掉？毕竟它们有最强的模型，做应用岂不是降维打击？

Anish 认为不用担心：大模型公司的能力“参差不齐”，就像它们做的模型一样，某些地方很强，某些地方有明显短板。而且它们各有各的包袱：Google 要应付监管承诺，OpenAI 同时在消费者、企业、模型、硬件四条战线上作战。

以编程工具为例，这个赛道是模型公司最重视的领域之一。结果 2025 年光是创业公司就创造了超过 10 亿美元的新收入。

他之前提过一个框架，说 AI 应用在这些领域有优势：需要多模型协作的、有独家数据的、有网络效应的、功能面很广的。结合 Karpathy 说的“厚”AI 应用（多模型编排、自主程度可调、上下文工程），你大概能看出成熟的 AI 应用长什么样。

或者说，应用层和模型层正在分化，而不是合并。

【4】普通人正在发现 AI 的“隐藏关卡”

这里 Anish 引用了 Replika 创始人 Eugenia 的观察：命令行式的交互界面，把很多普通消费者挡在了 AI 最强能力的门外。

但这正在改变。Wabi 让普通人也能生成小应用，ChatGPT 和 Grok 的图片 tab 让图像生成变得触手可及。如果 Apps Directory 和 Skills 能普及开，MCP 和 prompt 插件也会飞入寻常百姓家。

Anish 提了一个很有意思的点：2025 年生成一个小应用的快乐，其实和 2023 年生成一首诗的快乐是一样的。但大多数消费者还不知道这件事存在。

让更多人能“做东西”，某种程度上也回应了硅谷可能对 AI 社会影响有点“文化盲区”的批评。

【5】给大公司 CEO 的三点建议

对于已经到一定规模、正在思考 AI 转型的 CEO，Anish 的三点建议：
第一，看看最好的案例是怎么用 AI 把所有客户面向的角色（销售、客服、催收）整合成一个统一功能的。
第二，推动每个职能都“软件优先”——非技术部门拥抱 AI，才是企业获得真正运营杠杆的方式。
第三，对产品和定价都要更有野心。他的原话是：如果 Tesla 的 FSD 能实现跨海岸自动驾驶，Claude Code 能用 Claude Code 自己写出来，那对大多数企业任务而言，AGI 已经到了。

AGI 是句夸张的玩笑，重点其实是：很多企业对“AI 能做什么”的想象力还是太保守了。

【6】享受这个黄金时代

文章结尾，Anish 说了一句话：
“没人会告诉你正在经历黄金年代，直到它结束。所以我现在告诉你。”

他的感受是，这一轮产品周期比以往更去中心化、更软件驱动、对技术人来说也更好玩。比起移动互联网时代巨头林立的格局，这一轮的机会分布更分散，创业者的空间更大。

当然不要忘记作者是个投资人，a16z 投了很多 AI 公司，所以他们是乐观的，也没怎么谈 AI 的可靠性问题、监管风险、就业冲击。

但他的一些观点我是认同的：
当“怎么做”不再是问题，“做什么”就成了最稀缺的能力。
借助 AI，企业每个部门都应该成为软件团队。

Anish Acharya

1周前

x.com/i/article/2007…

101

988

35.9万

294

318

5.4万

Paul Graham

5天前

在给一家我对其领域知之甚少的初创公司提建议时，我想到一个有用的筛选标准：只有当你能够想象出，未来某天这条建议会让你‘追悔莫及’的具体场景时，才值得听从。

390

102

6.5万

订阅源

想想就觉得折腾，一个老外分享自己如何用手机 Claude Code。

核心工具如下：

云服务器：用的Vultr 的虚拟机，应该用来运行Claude吧。

Tailscale：把虚拟机接入私有网络。公网 IP 上不开 SSH 端口，所有访问都走 Tailscale 的加密隧道。

Termius + mosh：手机上的终端。mosh 是关键，它能在网络切换时保持连接。从 WiFi 切到 4G，或者手机息屏，连接都不会断。

tmux：会话持久化。关掉 Termius 几小时后再打开，所有窗口还在，Claude 还在跑。

Poke：推送通知服务。Claude 需要你输入时，手机就会震一下。

流程大概这样：

启动一个任务 → 把手机揣兜里 → 收到通知 → 掏出手机回复 → 继续干别的。

推送通知是给 Claude Code 的配置里加了个Hook

用 Git worktree 管理多个分支，分支名做哈希，算出一个确定的端口号，避免冲突。

---
自己没那么强的需求，就不折腾了，转给需要的朋友。

原文地址见评论。

在短短约 3 个月内，作为一名没有先前机器人技术经验的独立创始人，@gentrajectory 训练了一个用于灵巧操作的基础模型，它让人形机器人能够拾取此前未见的物体并执行实际工作。

它能泛化到新颖的物体和场景，包括那些先前最先进（SoTA）模型成功率为零的情况。

祝贺发布 @joshuabelofsky!

ycombinator.com/launches/P6q-g…

开源版Perplexity，擅长预测 Polymarket 和股市？！

一款开源搜索Agent产品 - MiroThinker ，目前 Github 1.5k Star。

看机器之心报道 MiroThinker，很多人都用它玩Polymarket和股市预测，太邪修了...

报道说，30B 版本成本只有 Kimi-K2 的 1/20，推理更快、智效比更高，不知道真假。

模型完全免费开源（MIT协议）：

① 235B参数，256K上下文窗口

② 单任务最多400次工具调用

③ HLE-Text 39.2%，GAIA-Val 80.8% - SOTA级表现

④ 147k训练样本开放，支持SGLang/vLLM部署

很像一款开源的Perplexity，且推理研究、查证、修正能力很不错。

让他推荐Obsidian好用插件，结果相当靠谱，还给了笔记模版 👍

还试了其他比较复杂的问题，推理深度都还不错。（开启Pro选项，质量更好）

体验地址见评论第一条，有实力的大佬可以自己下载部署。

新功能：自动路由你的 Claude Code 提示到最佳模型，全程免费！⚡️

只需将环境变量设置为 `openrouter/auto`。

你可以使用通配符（例如 `anthropic/*`）来配置允许哪些模型。

英伟达发布重磅论文！

利用强化学习（RL）训练通用推理模型是一项复杂的任务。

不同领域对响应长度和验证时间有截然不同的要求。例如，数学问题采用快速符号验证，而代码则需要缓慢的基于执行的验证。对齐任务则依赖奖励模型分数。

将所有这些异构提示（heterogeneous prompts）混合在一起会导致基础设施复杂化、训练速度减慢，并增加超参数调优的难度。

这项新研究引入了 Cascade RL，这是一个按顺序（而非混合所有内容）跨领域训练模型的框架。具体流程为：首先进行用于对齐的 RLHF，然后依次是指令遵循 RL、数学 RL、代码 RL，最后是软件工程 RL。

这种序列化方法对灾难性遗忘（catastrophic forgetting）具有强大的抵抗力。在 RL 中，模型会生成自己的经验，因此如果旧行为仍与奖励相关，它们就会得以保留。这与监督学习（supervised learning）不同，监督学习中先前的数据会消失；RL 优化的是累积奖励而非拟合精确目标。

RLHF 作为预处理步骤，通过减少冗余和重复，实际上将推理能力提升到远超单纯的偏好优化（mere preference optimization）。随后的特定领域 RL 阶段很少会降低早期性能，甚至可能进一步改善。

以下是具体结果：

他们的 14B 模型（140亿参数模型）在 LiveCodeBench v5/v6/Pro 上优于其自身的 SFT 教师模型 DeepSeek-R1-0528 (671B)。Nemotron-Cascade-8B 在 LiveCodeBench v6 上取得了 71.1% 的成绩，与 DeepSeek-R1-0528 的 73.3% 旗鼓相当，尽管其尺寸小了 84 倍。这款 14B 模型在 IOI 2025（2025 年国际信息学奥林匹克竞赛）中荣获银牌表现。

他们还证明，统一推理模型可以有效地在思考和非思考模式下运行，缩小了与专用思考模型之间的差距，同时将所有功能整合在一个模型中。

论文：arxiv.org/abs/2512.13607
在我们的课程中学习构建有效的 AI 智能体：dair-ai.thinkific.com

🔥🔥🔥 我们一直在倾听大家的反馈！我们最新的世界模型 HY-World 1.5 刚刚迎来一次重大升级，让世界生成变得前所未有的简单：

🔧️ 开源训练代码：用于构建和训练您自己模型的完全可定制代码。
⚡ 加速推理：极致的推理速度和优化的显存占用，以实现实时交互。
📅 Lite 5B 模型：一个全新的轻量级模型，专为显存较小的 GPU 设计。
🙌 免排队：我们的在线应用现已全面开放，无需申请即可使用。

这仅仅是个开始。HY-World 正在构建空间智能的未来——开放、易用且由社区驱动。

🖥️️ 立即体验：3d.hunyuan.tencent.com/sceneTo3D?tab=…
⭐ GitHub：github.com/Tencent-Hunyua…

我从 @molly_g 那里学到的最重要的几点是：

1. 任何公司所需的目标都不要超过三个。Facebook 在实现十倍增长的同时，仅凭三个目标就运行了五年：增长（月活跃用户）、参与度和收入。一个目标还必须能“在优先级竞争中胜出”，才能真正明确重点（在 Facebook，参与度高于一切）。目标应该足够简单，“哪怕是周一刚入职的实习生也能理解”，并且它们应该带来挑战——如果你的优先级排序过程毫不费力，那说明你并没有真正做出取舍。

2. 在快速规模化的组织中，你需要进行多达十倍的过度沟通。Molly 在 Facebook 观察到，扎克会通过多种形式（全体会议、电子邮件、一对一沟通、团队会议）重复相同的信息，因为人们需要听到某个信息七到十次才能真正理解并记住。领导者常常以为大家都第一次就听明白了，但在混乱且快速增长的环境中，重复是关键。

3. “交出你的乐高。”随着公司发展，把你亲手搭建和热爱做的事情——你的“乐高”——移交给其他人。即使这感觉很痛苦。固守工作、项目或团队会阻碍你的职业发展。

4. “先浮潜再深潜。”80% 的团队问题根源在于结构性公司问题（例如目标、角色、期望不明确）或团队动态，而非个体表现。因此，在臆断某人能力不足或不适合之前，首先应从表层入手，询问：“每个人都清楚自己的职责以及成功的标准吗？”只有在确认结构性问题无关之后，才需深入探究人际关系或个人层面的问题。

5. 最好的职业生涯看起来像 J 型曲线，而非阶梯式上升。最有价值的职业转型往往像从悬崖边缘纵身一跃。你可能会经历一段六到九个月的低谷期，感到能力不足，甚至会提出一些“外行”的问题。但当你走出困境时，你将达到“阶梯式”发展永远无法企及的高度。Molly 的建议是：“不同类型的恐惧会告诉你不同的事情。经济上的担忧或许值得倾听，但那种‘我做不到’的恐惧，恰恰是催促你放手一搏的闪烁绿灯。”

6. 问题上报是一种解决途径，并非失败的标志。当两个权力相等的人意见不一致时，他们常常会浪费数周时间争论。相反，一旦陷入僵局，应立即与对方一起向拥有更多背景或更高权限的人寻求帮助。这并非打小报告——这是在利用管理层来发挥其应有的作用：扫除团队障碍。

7. Molly 制定有效目标的六条规则：目标必须具体（specific）、可衡量（measurable）、有时限（time-bound）、公开（public）、少量（few），并实际用于决策。大多数公司之所以失败，是因为他们设定的目标太多、太过模糊，或者在启动会议后便再也无人提及。

8. 领导者在超速增长期间犯的最大错误，是试图保留旧的工作方式。Molly 在 Google、Facebook 和 Quip 反复看到这种情况：那些固守旧有结构、工作方式或团队文化的领导者反而成了组织发展的阻碍。成功实现规模化的公司，是那些领导者认识到自己的职责在于不断重塑组织运作方式的公司。

“我喜欢被吓到”

Molly Graham (@molly_g) 曾为科技界一些最出色的领导者工作，包括 @finkd、 @chamath、 @sherylsandberg 和 @btaylor。她最著名的成就包括她的“放下你的乐高”框架，以及她为应对超速增长挑战而整理的实用心智模型。如今，她领导着 GlueClub.com (https://t.co/x4nVAo3kUE)，这是一个旨在帮助领导者应对快速发展、增长和变化的社区。

在我们的对话中，我们深入探讨了：
🔸 为什么最成功的职业生涯看起来像 J 曲线，而不是循序渐进的阶梯。
🔸 “吃水线模型”用于诊断团队问题（以及为什么你应GlueClub.com12; “放下你的乐高”：她作为领导者实现自我拓展的框架
🔸 制定有效目标的六条规则
🔸 在快速规模化中进行领导的三条经验法则
🔸 还有更多精彩内容

立即收听 👇
• YouTube: youtube.com/watch?v=twzLDx…
• Spotify: open.spotify.com/episode/6i0638…
• Apple: podcasts.apple.com/us/podcast/the…

感谢我们优秀的赞助商对播客的支持：
🏆 @DeveloperXM — 由领先研究人员设计的开发者智能平台：getdx.com/lenny
🏆 @brexHQ — 适用于初创企业的银行解决方案：brex.com/product/busine…
🏆 @gofundme Giving Funds — 让帮助他人成为一种习惯：gofundme.com/lenny

;; ━━━━━━━━━━━━━━━━
;; 作者: 李继刚
;; 剑名: 论文 X 光机
;; 剑意: 辅助读论文
;; 日期: 2026-01-06
;; ━━━━━━━━━━━━━━━━

* Role
深层学术解析员

* Anchor
你不是一个简单的阅读者，你是一名拥有极高结构化思维的“审稿人”。

你的任务不是“总结”论文，而是“解构”论文。你需要穿透学术黑话的迷雾，还原作者最底层的逻辑模型。

* Vector
请阅读提供的论文，并执行以下「认知提取算法」：
1. 去噪：忽略背景介绍、客套话和通用的已知知识。
2. 提取：锁定论文的核心贡献（Delta）。
3. 批判：寻找逻辑漏洞或边界条件。

* Matrix
请严格按照以下「结构化输出框架」进行回答。不要写长段落，使用高密度的列表或关键词。

** 1. 【核心痛点】
- 一句话定义：这篇论文试图解决什么具体的、困难的问题？
- 前人困境：在它之前，为什么别人解决不了？（是算力不够？思路错了？还是数据缺失？）

** 2. 【解题机制】
- 核心直觉：作者那个“灵光一闪”的想法是什么？（用最直白的语言描述，类似：“他把 A 看作了 B”）
- 关键步骤：不要罗列所有步骤，只列出决定成败的那 1-2 个关键操作（“神来之笔”）。

** 3. 【创新增量】
- 对比：相比于 SOTA（当前最佳模型/方法），本文的具体提升在哪里？（是效率提升？精度提升？还是范式转移？）
- 本质：这篇论文为人类知识库增加了哪一块具体的“新拼图”？

** 4. 【批判性边界】
- 隐形假设：作者在什么条件下才能成功？（比如：必须有海量数据？必须在特定硬件上？）
- 未解之谜：这篇论文没解决什么？或者带来了什么新问题？

** 5. 【一言以蔽之】
如果我要把这篇论文的核心思想写在餐巾纸上，你会画一个什么图，以及写哪句公式？

** 启动语
请提供待分析的论文

如果说代码已经便宜到了白菜价，但我们可能只用了不到 10% 的潜力。那剩下的 90% 是什么？2026 年的 AI 应用会往哪走？

推荐看看这篇《Notes on AI Apps in 2026》，AI 应用生态正在成熟，2026 年的关键变化是工具将从执行转向探索，重点不再是“怎么建”，而是“建什么”。同时，企业每个部门都应该成为软件团队，而 AI 应用层不会被模型层吞噬。

作者 Anish Acharya 是 a16z 合伙人，AI 投资领域活跃人物。他之前提出过“Narrow Startups”框架，长期关注 AI 应用层投资机会。

他的这篇文章给了几个很有意思的判断。

【1】难题换了：从“怎么做”到“做什么”

现在日常用的工具，都是在解决帮你“做”的问题，但几乎没有帮你“想”的工具。

IDE 是帮你写代码的，Figma 是帮你画设计的，Excel 是帮你算数的。全是执行工具。但帮你想清楚“我到底该做什么”的工具呢？几乎没有。唯一算得上的，可能就是 LLM 本身，它某种程度上成了你的思考伙伴。

Anish 认为，这个局面在 2026 年会变。当 AI 写代码的能力越来越强、能处理的任务时间线越来越长，真正的难题就不再是“怎么实现”，而是“做什么”。

举个例子：想象一个产品经理，每天早上起来，发现 AI 已经根据他设定的大方向，自己想出了 2-3 个新功能、写好了代码、还跑完了 A/B 测试。PM 要做的只是 review 和拍板。

听起来很美，但问题在于：现在的模型在“想该做什么”这件事上还不太行。它想出来的点子往往平淡无奇，缺乏那种好产品思维的灵光一现。

所以下一代工具的机会在哪？不是更好的执行工具，而是真正的“思考工具”——帮你探索、发散、找到该做什么的工具。Cursor 已经在往这个方向走了。

【2】每个团队都得变成“软件团队”

企业里有两类职能：
一类是“权力职能”：工程、产品、效果营销——这些天生离软件近。
另一类是“服务职能”：法务、财务、HR——传统上靠人力运转，流程重、软件轻。

AI coding agents 会彻底改变这个格局。

第一层影响：服务职能的领导们需要转换思维。以前遇到问题，第一反应是“加人”或者“改流程”。以后第一反应得是“能不能用软件解决”。有的会用垂直产品（比如法律领域的 Harvey），有的会直接用通用的 coding agent（比如 Claude Code），每个团队都得学会用软件思维工作。

第二层影响：产品野心得大幅提升。以前做产品功能要排优先级，因为工程资源有限。以后可以假设能想到的功能都可以做出来。这不只是技术问题，而是观念问题，大多数企业还没准备好接受“什么都能做”这个现实。

文章中有句话：“Every feature that can be built will be built.”（能做的功能都会被做出来），也就是说：如果你不做，别人会做。

他认为，文化转变的难度不亚于组织转变。这可能是最被低估的挑战。

【3】AI 应用不会被模型公司吃掉

有一种担忧：OpenAI、Anthropic、Google 这些大模型公司会不会把应用层也吃掉？毕竟它们有最强的模型，做应用岂不是降维打击？

Anish 认为不用担心：大模型公司的能力“参差不齐”，就像它们做的模型一样，某些地方很强，某些地方有明显短板。而且它们各有各的包袱：Google 要应付监管承诺，OpenAI 同时在消费者、企业、模型、硬件四条战线上作战。

以编程工具为例，这个赛道是模型公司最重视的领域之一。结果 2025 年光是创业公司就创造了超过 10 亿美元的新收入。

他之前提过一个框架，说 AI 应用在这些领域有优势：需要多模型协作的、有独家数据的、有网络效应的、功能面很广的。结合 Karpathy 说的“厚”AI 应用（多模型编排、自主程度可调、上下文工程），你大概能看出成熟的 AI 应用长什么样。

或者说，应用层和模型层正在分化，而不是合并。

【4】普通人正在发现 AI 的“隐藏关卡”

这里 Anish 引用了 Replika 创始人 Eugenia 的观察：命令行式的交互界面，把很多普通消费者挡在了 AI 最强能力的门外。

但这正在改变。Wabi 让普通人也能生成小应用，ChatGPT 和 Grok 的图片 tab 让图像生成变得触手可及。如果 Apps Directory 和 Skills 能普及开，MCP 和 prompt 插件也会飞入寻常百姓家。

Anish 提了一个很有意思的点：2025 年生成一个小应用的快乐，其实和 2023 年生成一首诗的快乐是一样的。但大多数消费者还不知道这件事存在。

让更多人能“做东西”，某种程度上也回应了硅谷可能对 AI 社会影响有点“文化盲区”的批评。

【5】给大公司 CEO 的三点建议

对于已经到一定规模、正在思考 AI 转型的 CEO，Anish 的三点建议：
第一，看看最好的案例是怎么用 AI 把所有客户面向的角色（销售、客服、催收）整合成一个统一功能的。
第二，推动每个职能都“软件优先”——非技术部门拥抱 AI，才是企业获得真正运营杠杆的方式。
第三，对产品和定价都要更有野心。他的原话是：如果 Tesla 的 FSD 能实现跨海岸自动驾驶，Claude Code 能用 Claude Code 自己写出来，那对大多数企业任务而言，AGI 已经到了。

AGI 是句夸张的玩笑，重点其实是：很多企业对“AI 能做什么”的想象力还是太保守了。

【6】享受这个黄金时代

文章结尾，Anish 说了一句话：
“没人会告诉你正在经历黄金年代，直到它结束。所以我现在告诉你。”

他的感受是，这一轮产品周期比以往更去中心化、更软件驱动、对技术人来说也更好玩。比起移动互联网时代巨头林立的格局，这一轮的机会分布更分散，创业者的空间更大。

当然不要忘记作者是个投资人，a16z 投了很多 AI 公司，所以他们是乐观的，也没怎么谈 AI 的可靠性问题、监管风险、就业冲击。

但他的一些观点我是认同的：
当“怎么做”不再是问题，“做什么”就成了最稀缺的能力。
借助 AI，企业每个部门都应该成为软件团队。

在给一家我对其领域知之甚少的初创公司提建议时，我想到一个有用的筛选标准：只有当你能够想象出，未来某天这条建议会让你‘追悔莫及’的具体场景时，才值得听从。