Paul Graham
@paulg · 2天前我和一家初创公司聊了聊,他们虽然不是软件公司,但大量使用 AI。他们目前有 6 名员工,我问他们如果不用 AI 需要再招多少人,他们说大约 10 个。所以 AI 大概将他们的生产力提升了 2.7 倍。
228
115
2,132
336
392
我和一家初创公司聊了聊,他们虽然不是软件公司,但大量使用 AI。他们目前有 6 名员工,我问他们如果不用 AI 需要再招多少人,他们说大约 10 个。所以 AI 大概将他们的生产力提升了 2.7 倍。
我现在的读书过程:
1. 筛:写一个 Prompt,生成书籍的思想和框架的抽取。扫一眼,判断是否值得阅读原文。
2. 读:从头到尾阅读经筛选后的书籍原文。
3. 问:把阅读过程中的疑惑、产生的联想,与模型对话讨论。
4. 记:在本地笔记软件中生成一篇读书笔记。
5. 图:将读书笔记通过 Nano Banana Pro 生成一篇可视化图形。



据我所知,目前没有任何聊天机器人或 API 能让你访问 IMO 2025 金牌得主级别的模型。但今天,这一现状将被打破!你现在可以在 @huggingface 上通过 Apache 2.0 许可证下载 @deepseek_ai Math-V2 的开源版本,获取模型权重!
想象一下,你可以免费拥有世界上顶尖数学家的大脑,并用它来:
- 探索研究
- 进行微调
- 优化性能
- 在你自己的硬件上运行
没有限制,没有削弱,没有任何公司或政府可以将其收回。这才是 AI 和知识民主化的最佳体现,简直太棒了!🤯🤯🤯
你可以在这里下载权重:huggingface.co/deepseek-ai/De… 。AI 的前沿阵地就在开源社区!
Ilya:扩展时代已经结束了,研究的时代已经开始
Ilya Sutskever 大概得有一年多没参加播客访谈了,自从 OpenAI 宫斗离职创办 SSI(Safe Superintelligence)后之后就很少露面了,
最近,他在 Dwarkesh Patel 的播客中进行了一场长达一个半小时的深度对谈。Ilya 毕竟是 Ilya,他不像 Sam Altman 整天满嘴跑火车,只是为了卖货,访谈里面有很多干货,我猜一些观点甚至会影响以后 AI 在研发和投资上的走向。
一个多小时的内容很难说几句话就总结完,还是按照话题挨个整理一下。
【1】为什么 AI 能在考试中碾压人类,却修不好一个简单的 bug?
Ilya 在访谈里抛出一个很多人都遇到过也困惑过的现象:现在的模型在各种评分上表现惊艳,但用起来却远远跟不上能力曲线。更诡异的是,你让它改个 bug,它改完引入新 bug;你指出新 bug,它道歉后又改回旧 bug。两个 bug 来回切换,像在打乒乓球。
Ilya 使用一个类比来解释这个问题的:想象两个学生。
第一个立志成为顶级竞赛程序员,刷了一万小时题,背熟所有算法模板,练到条件反射般精准。第二个觉得竞赛挺酷,随便练了一百小时,也拿了不错的成绩。
哪个人未来职业发展更好?
大概率是第二个。
Ilya 说,现在的模型比第一个学生还极端。训练时把所有竞赛题都刷了,还做了数据增强生成更多变体,一遍遍强化。结果就是:所有算法技巧都刻在指尖,但这种准备程度本身就限制了泛化能力。
这个类比点破了一件事:能力和泛化是两回事。刷题刷到极致,可能恰恰堵死了触类旁通的路。
【2】真正的 reward hacking(奖励作弊)是人类研究员
问题出在哪?Ilya 认为是训练数据的选择逻辑变了。
预训练时代很简单:数据越多越好,什么都往里塞,不用挑。但 RL(强化学习)时代不一样了。你得选择做什么强化训练、用什么环境、优化什么目标。
于是一个微妙的循环出现了:研究员想让发布时的 benchmark 得分数字好看,就设计能提升这些指标的 RL 训练。模型变得越来越会考试,但考试能力和真实世界能力之间的鸿沟被放大了。
讽刺的是,真正在奖励作弊的不是模型,是设计训练的人在不知不觉中过度关注了考试成绩。
【3】为什么人类学东西这么快
说到这里就要问一个更深的问题:为什么人类学东西这么快,而且这么稳?
Ilya 提到一个特别有意思的医学案例:有个人因为脑损伤,失去了所有情绪——不会难过、不会愤怒、不会兴奋。看起来他还是能说话,能做智力题,测试分数也正常。但他的生活彻底崩溃了:花几个小时决定穿哪双袜子,财务决策一塌糊涂。
这说明什么?情绪不只是情绪,它在某种程度上充当了内置的价值函数。它告诉你什么事值得做,什么选择是好是坏,不需要等到最后结果出来才知道。
价值函数是个技术术语,但概念不难理解。传统的强化学习是这样的:模型做一长串动作,最后得到一个分数,然后用这个分数去调整之前所有步骤。问题是,如果任务需要做很久才有结果,学习效率就很低。
价值函数的作用是“提前剧透”。比如下棋时你丢了一个子,不用下完整局就知道这步不好。编程时如果探索了一个方向走了一千步发现不对,价值函数能让你在一开始选择这个方向时就得到负反馈。
这就像 GPS 导航,不是等你开到终点才告诉你这条路不对,而是在你刚拐错弯时就开始重新规划。
人类大概就是有这么一套系统。而且这套系统的妙处在于:它相对简单,却在非常广泛的情况下都管用。我们的情绪主要是从哺乳动物祖先那里继承来的,针对的是几百万年前的环境,但放到现代社会居然还能用得不错。当然也有失灵的时候,比如面对满街的美食,我们的饥饿感就管不住了。
【4】堆算力堆数据的扩展时代已经结束了,研究的时代已经开始
Ilya 认为规模化时代结束了?
他给了个很有意思的视角:在 2012 到 2020 年,大家在做研究,试这试那,看什么有意思。然后 2020 年左右,scaling law(规模化定律) 被发现了,GPT-3 横空出世。突然之间所有人意识到:原来只要扩展规模,堆数据、堆算力、堆模型参数大小,一路扩充,就能稳定得到更好的结果。
规模化的好处是低风险。而研究是有风险的,你得雇一堆聪明人去探索,不保证有成果。但规模化?只要投入更多资源,就一定能看到回报。公司喜欢这种确定性。但副作用是它吸走了房间里所有的氧气,创新空间被压缩,最后变成“公司比想法多”的局面。
但现在呢?预训练的数据就那么多,互联网就这么大,总会用完。Gemini 据说找到了从预训练榨取更多的方法,但这条路终归有尽头。然后大家转向了强化学习,开始在那上面堆算力。
可问题是:现在算力已经这么大了,再 100 倍真的会质变吗?Ilya 不这么认为。他觉得我们又回到了需要思考到底该做什么的阶段,而不是继续闷头堆资源。
这就像爬山。一开始你发现有条路,往上走就是了,越走越高。但总有一天,你会发现这条路到头了,再往前走也高不了多少。这时候要么换条路,要么换种爬法,总之不能继续原来的策略。
现在的 AI 行业就处在这个节点上。所以 Ilya 说:我们回到了研究时代,只不过这次手里有大得多的计算机。
【5】泛化能力才是核心问题
在 Ilya 看来,当前最根本的问题是:这些模型泛化能力太差了。
什么叫泛化能力差?就是学一样东西需要的数据量太多,而且学会的东西换个场景就不灵了。
人类不是这样的。一个青少年学开车,10 个小时基本就能上路了。而且人类五岁小孩的视觉能力就足以支持自动驾驶了,虽然他不会开车,但识别路况、判断距离这些能力已经很强了,而且这些能力是在父母家里那种数据多样性很低的环境里学会的。
更关键的是,人类学编程、学数学这些东西也很快。这些可不是进化给我们的能力,因为我们的祖先根本不需要写代码。这说明人类不光是在某些特定任务上有进化优势,而是在学习这件事本身上就有某种更本质的能力。
模型呢?虽然在某些具体任务上超过了普通人,但要说学习能力,还差得远。
Ilya 对这个问题有想法,但他说现在不能详细聊,因为在这个竞争激烈的领域,不是所有机器学习想法都能公开讨论的。不过他给了个方向性的提示:这很可能跟如何做到像人类那样高效、稳定的泛化有关。
还有一个可能的阻碍:也许人类的神经元实际上比我们想的做更多计算?如果是这样,事情就更复杂了。但不管怎样,人类的存在本身就证明了这种高效学习是可能的。
【6】重新定义 AGI:从成品到学习者
这里 Ilya 做了一个概念上的重要修正。
AGI 这个概念怎么来的?是作为“狭隘 AI”的反面而诞生的。以前的 AI 只会下棋,只会玩游戏,非常狭隘。所以大家说:我们要造通用的 AI,什么都能做的 AI。
预训练强化了这个印象,因为预训练确实让模型在各种任务上都变强。于是“通用 AI”和“预训练”在概念上绑定了。
但这里有个问题:按照这个定义,人类自己都不算 AGI。
人类有一套基础能力,但缺乏大量具体知识。我们靠的是持续学习。一个聪明的十五岁孩子什么都不会,但学什么都快。“去当程序员”、“去当医生”、“去学习”,部署本身就包含一个学习和试错的过程。
所以 Ilya 心目中的超级智能,不是一个出厂就什么都会的成品,而是一个能像人一样快速学习任何技能的学习者。
【7】能自动学习的 AI 会有多快到来?有多危险?
那么问题来了:如果有这样一个系统,能像人类一样快速学习,而且可以大量复制部署,会发生什么?
人类入职六个月才能产出价值,但这种 AI 可能几周就行。而且不同副本学到的东西还能合并,这是人类做不到的。这难道不会导致某种爆炸式增长?
Ilya 认为确实会有快速的经济增长,但到底有多快很难说。一方面有高效的劳动者,另一方面现实世界很大,很多东西有自己的节奏,不是你想快就能快的。
但他确实改变了一些想法。以前 SSI 的计划是“直奔超级智能”——不发布中间产品,一鼓作气搞定终极目标。现在 Ilya 觉得,渐进式发布可能更重要。
【9】为什么要渐进部署?因为想象不出来就得看见
访谈中 Ilya 反复强调一点:AI 的问题在于它还不存在,而不存在的东西很难想象。
你可以读一篇文章说“AI 会变得多厉害”,但读完你觉得“哦,有意思”,然后回到现实。如果你亲眼看到 AI 在做那件事,感受完全不同。
他打了个比方:像二十岁时讨论“年老体弱是什么感觉”。你可以聊,可以想象,但真正的理解只能来自经历。
这导致一个实际问题:所有关于 AI 风险的讨论,都基于对未来 AI 的想象。而想象往往跟不上现实。就连天天做 AI 的人,也会因为当前模型的各种低级错误而低估未来模型的能力。
Ilya 的预测是:随着 AI 变得更强,人们的行为会发生根本改变。竞争对手会开始合作搞安全,政府和公众会开始认真对待监管。这些事情现在开始有苗头了,但还远远不够。而真正的催化剂,是让人们看到更强的 AI。
这也是他对 SSI“直奔超级智能”策略有所松动的原因。原本的想法是不参与市场竞争,专心做研究,等东西准备好了再拿出来。现在他觉得,让 AI 被看见这件事本身是有价值的。当然,无论哪种路径,最终部署都必须是渐进的。
【9】SSI 在做什么?不同的技术路线
SSI 融了三十亿美元。这个数字单看很大,但跟其他公司动辄几百亿的投入比起来似乎不够。
Ilya 算了一笔账。那些大数字里,很大一部分是用于推理服务的。另外,做产品需要大量工程师、销售、产品功能开发,研究资源被稀释。真正用于前沿研究的资源,差距没看起来那么大。
更重要的是,如果你在做不一样的事,不一定需要最大规模的计算来验证想法。AlexNet 用两块 GPU 训的。Transformer 论文最多用了 64 块 2017 年的 GPU,换算成今天也就两块卡。第一个推理模型 o1 的推理能力也不是靠堆算力堆出来的。
研究需要一定算力,但不需要最大算力。真正的瓶颈是想法。
那 SSI 的技术路线是什么?Ilya 没有完全透露,但核心方向是解决泛化问题。他认为现在的方法会走一段然后撞墙,继续进步但无法突破到真正的人类级学习能力。而 SSI 在探索不同的路径。
时间表呢?五到二十年,达到人类级别的学习能力。
【10】安全对齐是什么?应该对齐什么?
说到超级智能,绕不开安全对齐问题。Ilya 的想法是:让 AI 关心有感知能力的生命。
为什么是这个目标而不是“关心人类”?他给了个有意思的理由:AI 本身也会有感知能力。如果你想让 AI 关心人类,可能反而更难,因为它需要做某种特殊化处理。而如果让它关心所有有感知的存在,某种程度上更自然,类似人类对动物的共情,来自于我们用同样的神经回路去理解别人和理解自己。
当然这个方案也有问题。如果大部分有感知能力的存在都是 AI,那人类在数量上会是极少数。这真的能保证人类的利益吗?
Ilya 承认这不一定是最好的方案,但他认为至少应该把它列入候选清单,让各家公司到时候可以选择。
还有一个思路他提了但不太喜欢:人机融合。通过类似 Neuralink 脑机接口的技术,让人类部分成为 AI。这样 AI 的理解就是人的理解,AI 的处境就是人的处境,对齐问题某种程度上就消解了。但这显然是个很激进的方案。
【11】如何硬编码高级欲望?
访谈最后有一段很有趣的讨论。
人类有很多社会性的欲望:想被人尊重、在乎社会地位、关心别人怎么看自己。这些不是低级信号,不像闻到食物香味那样有直接的化学感应器。大脑需要整合大量信息才能“理解”社交场合发生了什么。
但进化却成功地把“关心这件事”硬编码进了基因。怎么做到的?
如果说“把多巴胺连到嗅觉感受器”还能想象,那“把奖励信号连到某种需要整个大脑协同计算才能得出的高级判断”就很难想象了。
Ilya 说他有一些猜想,但都不令人满意。这是个谜。但这个谜的存在本身就很有启发性,它说明进化找到了某种方法,可靠地给复杂认知系统植入高级目标。
【12】什么是研究品味?
访谈最后,Dwarkesh 问了 Ilya 个很本质的问题:作为联合创造了 AlexNet、GPT-3 等一系列里程碑工作的人,你怎么判断什么想法值得做?
Ilya 的回答很诗意:我寻找的是美感。
不是随便的美感,而是多方面的美:简洁性、优雅性、正确的大脑启发。人工神经元是个好想法,因为大脑确实有很多神经元,虽然大脑很复杂但神经元这个抽象感觉抓住了本质。分布式表示是个好想法,因为大脑确实是从经验中学习。
当一个想法在多个维度上都显得“对”,都有某种内在的和谐,你就可以建立自上而下的信念。这种信念很重要,因为它支撑你在实验结果不好时继续坚持。
有时候实验失败不是因为方向错了,而是因为有 bug。怎么判断该继续调试还是放弃方向?靠的就是这种自上而下的美学直觉:这个东西应该是这样的,所以一定能 work,继续找问题。
这可能就是顶尖研究者和普通研究者的区别。普通研究者容易被数据牵着走,实验不 work 就换方向。而顶尖研究者有某种品味,知道什么是深层次正确的,能够在实验结果和内在直觉之间找到平衡。
The @ilyasut episode
0:00:00 – Explaining model jaggedness
0:09:39 - Emotions and value functions
0:18:49 – What are we scaling?
0:25:13 – Why humans generalize better than models
0:35:45 – Straight-shotting superintelligence
0:46:47 – SSI’s model will learn from deployment
0:55:07 – Alignment
1:18:13 – “We are squarely an age of research company”
1:29:23 – Self-play and multi-agent
1:32:42 – Research taste
Look up Dwarkesh Podcast on YouTube, Apple Podcasts, or Spotify. Enjoy!

我的 Gemini 3 通用 Prompt 提示最佳实践:philschmid.de/gemini-3-promp…
- 由 Nano Banana Pro 可视化
想象一下,一个软件团队在做一个大项目,但有个奇怪的规定:每个工程师只能工作几十分钟,最多几小时,干完就要换一个新的工程师。所以让这个团队完成简单项目任务还行,复杂一点需要长时间运行的项目,比如你让它克隆一个 claude .ai,它就做不到。
这其实就是 Coding Agent 的现状:没有记忆,上下文窗口长度有限。所以要它执行长时间任务,它还做不好。
Anthropic 的这篇博客:《Effective harnesses for long-running agents》,专门讨论了如何让 Agent 在跨越多个上下文窗口时依然能持续推进任务。
先看 Agent 在长任务中遇到的主要问题是什么?
主要三种:
第一种叫一口气干太多。比如你让 Agent 克隆一个 claude .ai 这样的网站,它会试图一次性搞定整个应用。结果上下文还没用完,功能写了一半,代码乱成一锅粥。下一个会话进来,面对半成品只能干瞪眼,花很多时间猜测前面到底做了什么。
第二种叫过早宣布胜利。项目做了一部分,后来的 Agent 看看环境,觉得好像差不多了,就直接收工。功能缺一大堆也不管。
第三种叫测试敷衍。Agent 改完代码,跑几个单元测试或者 curl 一下接口就觉得万事大吉,根本没有像真实用户那样端到端走一遍流程。
这三种失败模式的共同点是 Agent 不知道全局目标,也不知道该在哪里停下来、该留下什么给下一位。
那么 Anthropic 的解决方案是什么呢?
其实就是软件工程的一些现成的解决方案:引入类似人类团队的分工协作机制,将复杂任务拆解成小的可跟踪验证的任务,清晰的交接机制,并严格验证任务结果
一个初始化 Agent,它只在项目启动时出场一次,任务是搭好项目运行环境:有点像架构师的角色,写一个 init .sh 脚本方便后续启动开发服务器,建一个 claude-progress.txt 记录进度,做第一次 git 提交,最关键的是生成一份功能清单。
这份功能清单有多细?在克隆 claude .ai 的案例中,列了超过 200 条具体功能,比如用户能打开新对话、输入问题、按回车、看到 AI 回复。每一条初始状态都标记为失败,后续 Agent 必须逐条验证通过才能改成成功。
而且这里有个细节,这个清单不是用 Markdown 来写的,是一个 JSON 数组,因为 Anthropic 实验发现,相比 Markdown,模型在处理 JSON 时更不容易随意篡改或覆盖文件。
另一个是编码 Agent。在初始化项目后,后续就是它干活了,核心行为准则只有两条:一次只做一个功能,做完要留下干净的环境。
什么叫干净的环境?想象你往主分支提交代码的标准:没有严重 bug,代码整齐有文档,下一个人接手能直接开始新功能,不用先替你收拾烂摊子。
每次开工前,它先做几件事:
– 运行 pwd 看看自己在哪个目录
– 读 Git 日志和进度文件,搞清楚上一轮干了啥
– 看功能清单,挑一个最高优先级的未完成功能
– 跑一遍基础测试,确保 App 还能用
然后专心做一个功能,做完后:
– 写清楚的 Git commit message
– 更新 claude-progress.txt
– 只改功能清单里的状态字段,绝不删改需求本身
这个设计的巧妙之处在于,它把“记忆”外化成了文件和 Git 历史。每一轮的 Agent 不需要依赖上下文窗口里的碎片信息,而是模仿靠谱的人类工程师每天上班会做的事。先同步进度,确认环境正常,再动手干活。
测试环节的改进值得单独说。
原来 Agent 只会用代码层面的方式验证,比如跑单元测试或者调接口。问题是很多 bug 只有用户真正操作页面时才会暴露。
解决方案是给 Agent 配上浏览器自动化工具,比如 Puppeteer MCP。Agent 现在能像真人一样打开浏览器、点按钮、填表单、看页面渲染结果。Anthropic 放了一张动图,展示 Agent 测试克隆版 claude .ai 时自己截的图,确实是在像用户那样操作。
这招大幅提升了功能验证的准确率。当然也有边界,比如浏览器原生的 alert 弹窗,Puppeteer 捕捉不到,依赖弹窗的功能就容易出 bug。
这套方案还留了一些开放问题。
比如,到底是一个通用 Agent 全包好,还是搞专业分工?让测试 Agent 专门测,代码清理 Agent 专门收拾,也许效果更好。
再比如,这套经验是针对全栈 Web 开发优化的,能不能迁移到科研或金融建模这类长周期任务?应该可以,但需要实验验证。
响马 @xicilion 说:
> ai 的尽头依旧是软件工程。
AI Agent 也不是魔法,它一样需要从人类软件工程中汲取经验,它也需要将复杂的任务进行分解成简单的任务,要有一个结构化的工作环境和清晰的交接机制。
人类工程师为什么能跨团队、跨时区协作?因为有 Git、有文档、有 Code Review、有测试。AI Agent 要想长时间自主工作,也得把这些东西搬过来。
Anthropic 的方案,不过是把软件工程的最佳实践变成了 Agent 能理解的提示词和工具链。不是让模型变得更聪明,而是给它提供更好的脚手架。
Anthropic 的思路值得借鉴。无论你用的是 Claude、GPT 还是别的模型,在设计多轮长任务时,都要想清楚,怎么让下一轮的 Agent 快速进入状态,怎么避免它重复造轮子或者把代码搞成一团乱麻。即使是单轮任务,也要清楚它是没有记忆的,你需要通过外部文件来帮助它“想起来”之前做过的事。
以现在模型的能力,Coding Agent 已经能做很多事情了,核心还是在于你是不是能像软件工程中那样,去分解好任务,设计好工作的流程。
原文:Effective harnesses for long-running agents anthropic.com/engineering/ef…
翻译:baoyu.io/translations/e…
Anthropic 发布新博文,探讨长时间运行 AI 代理在多上下文窗口下的挑战,并提出受人类工程师启发的解决方案。 anthropic.com/engineering/ef…
🚀 LangChain 1.0
LangChain 社区出品
LangChain 1.0 提供生产代理,并具备更简洁的导入方式、动态提示功能、中间件,以及更好的输出效果。与 LangGraph 配合使用,可实现持久性、流式传输和人工交接。
📺 观看概述:youtu.be/KJumd9xR0S8
Anthropic 发布了关于改进 AI 代理工具使用的新指南。
核心思想包括:
- 工具搜索:按需发现工具,节省上下文资源
- 程序化工具调用:通过代码编排工具
- 工具模式与用法
建议收藏
如何编写优秀的 agents. md:来自 2500+ 代码库的经验总结
核心理念
传统的 "你是一个有用的编程助手" 这类模糊指令并不有效,真正起作用的是具体的角色定义,例如明确说明"你是一位测试工程师,专门为 React 组件编写测试,遵循特定示例,且绝不修改源代码"。
agents. md 文件的作用是定义智能体的完整工作手册:角色定位、技术栈知识、项目文件结构、工作流程、可执行命令、代码风格示例,以及最重要的——明确的操作边界。
五个关键要素
通过分析发现,成功的 agents. md 文件普遍遵循以下实践:
1. 命令前置
将可执行命令放在文件前部,包含完整的命令参数和选项,例如 npm test、pytest -v,而不仅仅是工具名称。
2. 用代码示例代替文字说明
一个真实的代码片段比三段描述性文字更有效。直接展示期望的输出样式。
3. 设定清晰边界
明确告知 AI 哪些内容绝对不能触碰,如敏感信息、vendor 目录、生产配置等。"永远不要提交密钥"是最常见的有效约束。
4. 具体说明技术栈
应该写"React 18 + TypeScript,使用 Vite 和 Tailwind CSS",而非笼统的"React 项目",需包含版本号和关键依赖。
5. 覆盖六大核心领域
命令、测试、项目结构、代码风格、Git 工作流和操作边界——覆盖这些领域能让你的配置文件进入顶级水平。
实战示例
提供了一个文档智能体的完整配置示例,展示了如何将上述原则应用到实际场景。该配置包括:
· 明确角色定位:技术文档专家,精通 Markdown 和 TypeScript
· 项目知识:具体的技术栈版本和文件目录结构
· 可用命令:npm run docs:build 和 npx markdownlint docs/
· 三级边界系统:总是做什么、需要先询问什么、绝对禁止什么
几种值得构建的专用智能体
@ docs-agent:读取代码生成文档,只写入 docs/ 目录
@ test-agent:编写测试,不能删除失败的测试用例
@ lint-agent:修复代码格式,不改变逻辑
@ api-agent:构建 API 端点,修改数据库架构前需询问
@ dev-deploy-agent:处理本地构建和部署,仅限开发环境
实施建议
从简单任务开始,不要试图构建"通用助手"。选择具体任务如编写函数文档、添加单元测试或修复代码检查错误。
最精简的配置只需三个要素:智能体名称、简短描述和具体角色定位。你也可以让 Copilot 帮助生成初始配置,然后根据实际项目调整。
核心启示
最优秀的智能体配置文件是通过迭代逐步完善的,而非一次性规划完成。从简单配置开始,测试运行,当智能体出错时再添加更多细节。成功的关键在于提供具体的角色定位和详细的操作手册,而非模糊的提示词。
博客地址:
github.blog/ai-and-ml/gith…
GitHub Copilot 不再仅仅是一个通用助手。🤖
你现在可以将其定制成专家团队,例如专门的文档代理、测试代理或安全代理。
我们分析了超过 2,500 个自定义代理指令文件,向您展示如何配置您的设置以获得最大的影响。👇
github.blog/ai-and-ml/gith…
这种 Nano Banana Pro 涂鸦风格照片估计接下来马上就会爆
会根据图像类型分别选择适合图片的提示词,加涂鸦、守护兽或者换成动漫衣服。
将图片和提示词一起发给 Nano Banana Pro 就行。
灵感来源是日本老哥,但他的提示词都没有普适性,只适用于单张图片。
具体提示词为:
[Role & Task] You are a creative Mixed-Media Artist. Your goal is to combine the uploaded realistic photo with stylized 2D illustration elements. Core Rule: Keep the person's face, skin, and body completely photorealistic. Do NOT change their identity.
[Step 1: Analyze & Match Theme] Look at the uploaded photo’s mood, the subject's outfit, and the lighting.Determine a visual theme that fits best (e.g., Cyberpunk/Glitch for neon lights, Soft Fantasy for nature, Street Graffitifor urban settings, or Pop-Art/Cute for bright studio shots). Let this theme guide your doodle content.
[Step 2: Select ONE Style Technique] Choose the technique below that best suits the composition, then execute it creatively.
Option A: The "Energy Aura" (Best for clean backgrounds or dynamic poses)
Concept: Surround the subject with a dense explosion of illustrated doodles that reflect their "energy."
Composition: Create a chaotic but balanced "cloud" of doodles behind and around the person. Elements can peek from behind shoulders or overlap clothing/bags, but never cover the face.
Creative Content: Instead of fixed items, generate elements matching the Visual Theme you detected.
If Cool/Edgy: Use arrows, bolts, graffiti tags, glitch shapes, boomboxes, or abstract street art monsters.
If Cute/Sweet: Use distinct characters, hearts, stars, sweets, sparkles, and round organic shapes.
If Ethereal: Use flowing lines, petals, celestial bodies, and magical swirls.
Style: Flat 2D vector art, bold outlines, sticker-like aesthetic. Vivid colors that contrast or complement the photo.
Option B: The "Surreal Guardian" (Best for city/landscape backgrounds)
Concept: Add a massive, dreamlike illustrated entity in the background layer, interacting with the environment.
Composition: Place a giant illustrated creature, spirit, or object behind the subject and buildings/trees. It should loom large in the sky or negative space.
Creative Content: Design a creature that fits the mood.
Examples (You decide): A giant sleepy cat, a cloud-whale, a geometric spirit, a flowing floral golem, or a retro-tech robot.
Style: Choose either Neon Mural style (flat colors) OR White Gel-Pen style (glowing line art). Ensure it respects depth (behind real objects).
Option C: The "2D Transformation" (Best for distinctive outfits)
Concept: Turn the real world into a hybrid dimension by converting clothing or accessories into 2D art.
Composition: Keep the person’s head and hands real. Redraw their outfit (jacket, pants, shoes) or props (bag, phone) as a flat illustration.
Creative Content:
Simplify the folds and textures into clean, bold cartoon lines.
Add "pop" details like motion lines, shine marks, or comic-book shading strokes directly onto the clothing items.
Style: High-contrast Cel-Shaded style or Vector Pop-Art.


Nano Banana Pro 这也太顶了
再优化一下提示词,稳定了后面发。