精选推送

BestBlogs.dev 精选文章第 42 期

👋 亲爱的读者朋友们，欢迎阅读本期 AI 领域精选文章！

本期，我们为您精心挑选了 30 篇人工智能领域的深度好文，纵览本周 AI 领域最新突破与发展趋势，助您紧随时代浪潮，把握 AI 发展脉搏！本周，AI 领域精彩纷呈。模型竞赛进入白热化阶段，Google、Meta、Kimi 等巨头纷纷亮剑，MoE 架构、多模态能力与超长上下文成为竞逐焦点。与此同时，AI Agent 生态建设按下加速键，从基础理论普及到开发框架、云平台服务（如 AutoRAG、全周期 MCP）及协作协议 (A2A) 等基础设施日趋完善。此外，RAG 技术深化、提示工程与 Vibe Coding 等开发范式革新、AI 原生产品（音视频、CRM）的涌现，以及行业深度报告和领袖观点碰撞，共同勾勒出本周 AI 发展的全景图。

本周亮点：

模型竞速升级，多模态与高效推理成焦点：Google 发布 Gemini 2.5 Flash/Pro、视频模型 Veo 2、图像模型 Imagen 3 及音频模型 Chirp 3；Meta 开源 Llama 4 系列，采用 MoE 架构，拥有惊人的 10M token 上下文；Kimi 开源 16B 视觉模型 Kimi-VL，同样采用 MoE，推理时仅需激活 2.8B 参数，展现高效率与强推理能力。
AI Agent 生态加速构建，基础设施日趋完善：从理论普及（台大李宏毅新课）到实践框架，AI Agent 发展迅速。Google 推出 Agent 开发工具包 (ADK) 及 Agent 间协作协议 (A2A)；Cloudflare 推出全托管 RAG 服务 AutoRAG，并增强 Agent SDK（支持远程 MCP、身份验证、持久对象免费套餐）；阿里云百炼上线全周期 MCP 服务，提供 AI 工具一站式托管。
Agent 理念深入探讨：挑战、机遇与未来形态：行业深入探讨 Agent 技术爆发的驱动力（模型推理、多模态、代码能力）与挑战（工程实现、模型能力瓶颈），并思考何种 Agent 能脱颖而出（简单通用胜于复杂）。Rabbit 创始人吕骋提出构建基于 Agent 的操作系统 RabbitOS Intern，旨在颠覆传统 APP 交互模式。同时，AI Agent 对专属浏览器的需求也被提出和讨论。
RAG 技术深化演进，迈向多模态与智能化：RAG 作为提升大模型表现的关键技术持续进化。研究者深入探讨 RAG 发展的四大核心命题（数据价值、异构检索、生成控制、评估体系），并探索多模态检索、深度搜索等方向。Jina AI 发布新一代多模态多语言重排器 jina-reranker-m0，能同时评估文本与视觉信息的相关性。
提示工程与新型编程范式受关注：Google 发布官方提示工程白皮书，系统介绍概念、配置、技巧与最佳实践。新兴的 "Vibe coding" 编程方式（通过自然语言与 AI 协同编码）受到关注，Shopify CEO 甚至将熟练使用 AI 作为员工基本要求，并纳入绩效考核，文章亦提供了 Vibe coding 实践技巧与 Prompt 案例。GPT-4o 的创意图像生成提示词合集也展示了 Prompt 的威力。
AI 原生产品崭露头角，重塑垂直领域：AI 音视频创作应用 Captions 凭借独特的 AI 功能（虚拟形象、智能剪辑、自动字幕等）快速增长，展示了 AI 在内容创作领域的潜力。前 HubSpot CPO 创办的 Day.ai 旨在打造 AI 原生 CRM，通过自动数据提取与分析解决传统 CRM 痛点，提升销售效率。
模型推理机制与评测持续探索：Test-Time Scaling (TTS) 作为提升模型推理能力的有效手段被系统性综述，文章提出了分析 TTS 的四维框架。Midjourney V7 Alpha 发布，虽然在图像质量和个性化上有提升，但在提示词遵循和文本渲染方面与 GPT-4o 等相比仍有差距，相关深度测评提供了直观对比。
行业报告揭示宏观格局与趋势：斯坦福大学发布《2025 年 AI 指数报告》，全面分析了 AI 技术进展、应用普及、全球格局（中美差距缩小、开源追赶闭源）、伦理挑战及经济社会影响。对美国 2443 家 AI 初创公司和 802 位投资人的分析报告则揭示了 AI 早期创业的融资特点、行业分布与投资偏好。
创始人与行业领袖观点碰撞：OpenAI CEO 奥特曼认可 AI 初创企业早期“套壳”模式，并预测 AI Agent 将改变开发工作流。Rabbit 创始人吕骋阐述其用 Agent 重塑操作系统的雄心。Shopify CEO 强调 AI 应用的必要性。多抓鱼创始人猫助则分享了 AI 在 C2B2C 模式中的实践思考与创业感悟。
AI 应用边界拓展及硬件思考：除了软件应用，AI 也驱动硬件思考。针对人形机器人商业化前景的讨论，文章盘点了 10 家头部公司的现状，分析了其在成本、应用场景等方面的挑战，探讨了“人形”的必要性以及从工厂走向家庭的路径。

🔍 综观本周，AI 领域呈现出基础模型创新与 Agent 生态建设齐头并进的态势。技术迭代加速驱动应用场景向音视频创作、CRM、编程等领域纵深拓展，商业模式探索也日益活跃。与此同时，围绕技术路线（如 MoE vs 其他架构、Agent 设计哲学）、发展策略（企业如何拥抱 AI、创业公司生存之道）以及更广泛的社会经济影响（如斯坦福 AI 指数所揭示的）的讨论持续升温。欢迎您点击文章链接，深入探索本周 AI 的前沿动态，共同思考并迎接这场变革浪潮。

立即订阅

1Gemini 2.5 Flash 和 Pro，Live API 与 Veo 2
2Google Cloud Next 25 全解析：AI 模型、Agent 协议、开发工具全线升级
3Meta 深夜开源 Llama 4！首次采用 MoE，惊人千万 token 上下文，竞技场超越 DeepSeek
4jina-reranker-m0 全新多模态多语言重排器
5Kimi 16B 胜 GPT-4o！开源视觉推理模型：MoE 架构，推理时仅激活 2.8B
6四个维度深入剖析「 Test-Time Scaling 」！首篇系统综述，拆解推理阶段扩展的原理与实战
7台大李宏毅 2025 AI Agent 新课来了！
8AutoRAG：Cloudflare 全托管检索增强生成服务发布
9RAG 技术演进的四大核心命题
10Google 官方提示工程 (Prompt Engineering)白皮书
11Agent 技术解析：MCP、身份验证、授权与持久对象免费套餐
12代理开发工具包：简化多智能体应用构建
13从“人驱动”到“模型驱动”：聊聊 Agent 在 2025 年的爆发与挑战
1425 年什么样的 Agent 会脱颖而出：简单胜于复杂
15为什么 AI Agent 需要专属浏览器？
16实测：阿里云百炼上线「全周期 MCP 服务」，AI 工具一站式托管
17AI 进阶：从 Vibe coding 到职场必备
18Captions：两天做出 MVP、5 亿美金估值，TikTok 想干掉它、投资人争着投它
19深度测评丨 Midjourney V7 硬刚 GPT-4o：谁才能笑到最后？
20藏师傅 4o 图片提示词合集：让你的 4o 作图创意惊艳 10 倍
21对话 Rabbit 创始人吕骋：做 AI Agent，向所有人开战
22Day.ai：HubSpot CPO 再创业、红杉资本投资，AI Native 的 CRM 应该怎么做？
23被朱啸虎“当头一棒”之后，我们盘点了 10 家头部人形机器人公司的生存实况
24斯坦福《2025 年 AI 指数报告》
25Shopify 新标准：将 AI 融入日常工作，已是基本要求
26奥特曼最新访谈认可"套壳"：多数改变世界的公司，最初都是这样
27一个不太焦虑的 CEO 是怎么练成的｜和猫助聊多抓鱼的八年，至暗时刻和新计划
28在分析了 2443 家 AI 公司和 802 位投资人后，我们发现…
29AI 上周精选 #306: Astrocade， Llama 4， Nova Act
30Claude 的内心世界：Llama 4 的视觉-语言融合专家模型，更开放的多模态模型，表格数据专用神经网络

Gemini 2.5 Flash 和 Pro，Live API 与 Veo 2

Google Developers Blog

developers.googleblog.com

04-09

713 字 · 约 3 分钟

本文介绍了 Google Gemini API 的最新更新，包括 Gemini 2.5 Flash 和 Pro 模型的发布，它们具有更强的推理能力和低延迟特性，其中 Gemini 2.5 采用了一种思维模型。Veo 2 现已正式发布，支持通过文本和图像生成高质量视频。Live API 也进行了更新，增加了对多种语言的支持和可配置的语音活动检测，适用于构建实时交互应用。例如 Wolf Games 通过使用 Veo 2 将迭代次数降低了 60%。这些更新旨在帮助开发者构建更强大、更高效的 AI 应用。

Google Cloud Next 25 全解析：AI 模型、Agent 协议、开发工具全线升级

赛博禅心

mp.weixin.qq.com

04-10

3696 字 · 约 15 分钟

Google Cloud Next 25 全解析：AI 模型、Agent 协议、开发工具全线升级

本文深入解读了 Google Cloud Next 25 大会上发布的 AI 相关更新，涵盖 5 个 AI 模型、1 个 AI 协议和 6 项其他更新。重点介绍了 Gemini 2.5 Flash 推理模型，强调其高性价比和推理能力；Veo 2 视频生成模型，突出了其在视频编辑和创作方面的应用；Chirp 3 音频理解与生成模型，着重介绍了其在语音合成和转录方面的应用。此外，还介绍了 Imagen 3 图像生成和编辑能力改进，以及旨在实现 Agent 间无缝协作的 A2A 协议。Firebase Studio 云端 AI 编程工具，ADK Agent 开发框架，Google Workspace 集成 AI 服务，Ironwood TPU AI 芯片等也均有提及。Google 公布的 601 个真实客户 AI 案例，为 AI 应用层创业者指明了方向。本次更新展示了 Google 在 AI 领域的持续投入和创新，或将影响未来 AI 技术的发展方向。

Meta 深夜开源 Llama 4！首次采用 MoE，惊人千万 token 上下文，竞技场超越 DeepSeek

机器之心

jiqizhixin.com

04-06

4034 字 · 约 17 分钟

Meta 深夜开源 Llama 4！首次采用 MoE，惊人千万 token 上下文，竞技场超越 DeepSeek

Meta 发布了最新的 Llama 4 系列 AI 模型，包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型采用混合专家 (MoE) 架构，显著提升训练和推理效率，具备多模态能力，支持多种语言，并在多个基准测试中表现出色。Llama 4 Scout 拥有 170 亿激活参数和 10M token 超长上下文窗口，为业界领先，解锁了围绕记忆、个性化和多模态应用的新用例。Llama 4 Maverick 拥有 170 亿激活参数和 128 位专家，在多项基准测试中超越 GPT-4o 和 Gemini 2.0。Llama 4 Behemoth 拥有 2880 亿激活参数，是 Meta 目前最强大的模型之一，作为教师模型，为较小模型提供知识蒸馏。Llama 4 Scout 和 Llama 4 Maverick 已在 llama.com 和 Hugging Face 上开放下载，对开源社区具有重要意义。

jina-reranker-m0 全新多模态多语言重排器

Jina AI

mp.weixin.qq.com

04-09

5119 字 · 约 21 分钟

文章介绍了 Jina AI 发布的新一代多模态多语言重排器 jina-reranker-m0。该模型基于 Qwen2-VL-2B 架构，总参数量达到 24 亿，采用成对比较机制，能够同时评估输入文档里的视觉和文本元素与查询的相关性，实现高效的文档排序。相较于前代产品，jina-reranker-m0 不仅新增了处理视觉信息的能力，还在纯文本重排场景下，针对多语言内容、长文档及代码搜索等任务，性能也得到了进一步提升。文章还介绍了该模型在 ViDoRe 等多模态基准测试中取得了领先水平，并提供了 API 调用示例（简单易用）和 Hugging Face 的使用教程（使用更灵活，支持图片作为查询）。

Kimi 16B 胜 GPT-4o！开源视觉推理模型：MoE 架构，推理时仅激活 2.8B

量子位

qbitai.com

04-10

1894 字 · 约 8 分钟

Kimi 16B 胜 GPT-4o！开源视觉推理模型：MoE 架构，推理时仅激活 2.8B

文章介绍了 Kimi 团队新开源的视觉语言模型 Kimi-VL 及其推理版 Kimi-VL-Thinking。该模型基于 MoE 架构，总参数 16B，但推理时仅激活 2.8B，具备强大的多模态推理和 Agent 能力，支持 128K 上下文窗口。模型训练使用了包括预训练数据（字幕数据、图像文本交织数据等）、指令数据和推理数据三大类数据集。文章通过多个示例展示了 Kimi-VL 在视觉理解、推理、OCR 字符识别和多轮 Agent 交互任务中的出色表现，并在特定基准测试中超越了 GPT-4o。文章还介绍了模型的技术细节，包括模型架构和训练过程。最后，文章还提及了 Kimi 团队可能即将推出 K1.6 模型。

四个维度深入剖析「 Test-Time Scaling 」！首篇系统综述，拆解推理阶段扩展的原理与实战

AI科技评论

mp.weixin.qq.com

04-07

3708 字 · 约 15 分钟

四个维度深入剖析「 Test-Time Scaling 」！首篇系统综述，拆解推理阶段扩展的原理与实战

该文章对 Test-Time Scaling (TTS) 进行了系统性综述，TTS 通过在推理阶段动态分配算力，从而激发大模型潜能。文章提出了一个四维正交分析框架，包括 What to scale（扩展什么，例如 CoT 长度、样本数）、How to scale（怎么扩展，例如 Prompt、Search）、Where to scale（在哪里扩展，例如数学、代码）和 How well to scale（效果怎么样，例如准确率、效率）。基于此框架，文章梳理了现有文献，总结了推理阶段扩展技术的三大发展方向，并针对典型场景提供了具体的技术选型指南和未来发展方向。该综述为 TTS 领域的研究和应用提供了有价值的参考。

台大李宏毅 2025 AI Agent 新课来了！

Datawhale

mp.weixin.qq.com

04-04

30410 字 · 约 122 分钟

台大李宏毅教授深入讲解 AI Agent 的系统性课程实录，从定义到实践全面剖析。文章阐述了 AI Agent 的核心理念 —— 让 AI 在给定目标后自主规划并执行多步骤任务，重点探讨了如何利用 LLM 的通用能力构建 Agent，突破传统强化学习的局限。

课程涵盖三大关键能力：基于 RAG 技术的长期记忆管理、工具调用与环境交互、以及规划与思考机制。特别值得关注的是关于正负反馈效果的实验发现，以及推理模型在 Agent 任务中的最新表现。适合想要系统理解 AI Agent 原理和实践的开发者。

AutoRAG：Cloudflare 全托管检索增强生成服务发布

The Cloudflare Blog

blog.cloudflare.com

04-07

2249 字 · 约 9 分钟

Cloudflare 发布 AutoRAG 开放 Beta 版，这是一个全托管的检索增强生成 (RAG) 方案，旨在帮助开发者更轻松地将上下文感知 AI 集成到应用中。AutoRAG 通过自动处理数据摄取、分块、嵌入、向量存储、语义检索和响应生成等步骤，消除了构建和维护 RAG 流程的复杂性，并提供持续监控数据源和自动索引功能，确保 AI 知识库及时更新。AutoRAG 基于 Cloudflare 的 Vectorize 数据库和 Workers AI 构建，充分利用 Cloudflare 的无服务器平台，为开发者提供高性能和可扩展性。目前 AutoRAG 处于 Open Beta 阶段，可以免费使用。

RAG 技术演进的四大核心命题

阿里云开发者

mp.weixin.qq.com

04-09

10337 字 · 约 42 分钟

本文详细复盘了阿里巴巴在智能客服领域从 0 到 1 构建 RAG 系统的演进之路。作者深入分析了 2025 年 AI 从炒作转向落地 ROI 的趋势，并针对 RAG 系统中检索高准率但生成低可信度的「信任断层」问题，提出了系统性解决方案。文章核心亮点在于分层知识图谱的构建、混合语义检索（向量+文本+图）以及创新的 RAG Diagnoser 评估体系。对于正在探索企业级 RAG 落地、尤其是关注如何降低幻觉并提升复杂问题推理能力的开发者而言，这是一份极具参考价值的实战指南。

Google 官方提示工程 (Prompt Engineering)白皮书

宝玉的分享

baoyu.io

04-10

26887 字 · 约 108 分钟

本文是对 Google 官方发布的提示工程白皮书的总结。该白皮书详细介绍了提示工程的概念、LLM 输出配置（包括输出长度、采样控制如温度、Top-K 和 Top-P），以及各种提示技巧（如零样本、单样本、少样本、系统提示、上下文提示和角色提示）。此外，还探讨了代码提示和多模态提示，并提供了最佳实践，如提供示例、简洁设计和具体说明输出。该白皮书结构清晰，从基础概念（引言、基础知识）入手，深入探讨具体技术，涵盖关键应用，提及未来方向，并以实用建议收尾。白皮书旨在帮助用户更好地理解和应用提示工程，从而更有效地利用 LLM。

Agent 技术解析：MCP、身份验证、授权与持久对象免费套餐

The Cloudflare Blog

blog.cloudflare.com

04-07

2629 字 · 约 11 分钟

Cloudflare 致力于通过增强代理 SDK，引领 AI 代理生态。这些更新包括通过内置身份验证的远程 MCP 客户端简化与外部服务的集成，与 Stytch、Auth0 和 WorkOS 集成以进行身份验证和授权，以及 McpAgent 休眠以优化资源利用率。持久对象免费套餐降低了使用门槛。Workflows 正式发布和 AutoRAG 则助力构建可用于生产环境的、具有上下文感知能力的 AI 应用。这些增强功能使 AI 代理能够安全地连接到外部服务并代表用户高效地执行操作，从而使开发者和更广泛的 AI 代理生态系统受益。

代理开发工具包：简化多智能体应用构建

Google Developers Blog

developers.googleblog.com

04-09

1876 字 · 约 8 分钟

文章介绍了谷歌发布的开源框架代理开发工具包 (ADK)，旨在简化代理和多智能体系统的完整堆栈端到端开发。ADK 通过提供跨代理开发生命周期的能力，如构建、交互、评估和部署，使开发者能够构建生产就绪的代理应用程序，具有更大的灵活性和精确的控制。ADK 的关键特性包括多代理设计、丰富的模型和工具生态系统、内置流媒体、灵活的编排、集成的开发者体验和简易部署。此外，文章还比较了 ADK 和 Genkit，并强调了 ADK 与谷歌云的优化集成，特别是 Gemini 模型和 Vertex AI。谷歌鼓励开发者使用 ADK 构建下一代人工智能应用。

从“人驱动”到“模型驱动”：聊聊 Agent 在 2025 年的爆发与挑战

InfoQ 中文

mp.weixin.qq.com

04-06

9145 字 · 约 37 分钟

文章深入探讨了 Agent 技术在 2025 年爆发的可能性及面临的挑战。首先，文章阐述了模型推理能力、多模态模型能力和代码能力的进步如何推动 Agent 技术的发展，使得 Agent 更能理解用户需求、处理图像信息并高效生成代码。其次，文章分析了通用 Agent 在工程和模型层面面临的挑战，包括如何构建 Agent 的大脑、评估 Agent 的性能、解决长步骤下的记忆问题以及提升模型的指令跟随能力、长上下文能力、推理规划和反思能力。文章重点提到了 Devin 和 Cursor 这两款 Agent 产品在推动 Agent 发展中的代表性作用。最后，文章提出了通用 Agent 不会被模型取代的观点，并强调了 Agent 在人机协作中的重要作用。文章还介绍了作者在阿里巴巴内部研发智能化方面的实践经验，以及在 QCon 全球软件开发大会上的演讲分享。

25 年什么样的 Agent 会脱颖而出：简单胜于复杂

AINLP

mp.weixin.qq.com

04-09

8992 字 · 约 36 分钟

本文分析了 OpenAI 的 Operator 和 Deep Research 两款 Agent 产品，对比了 Agent 与 Workflow 的差异，并结合 Anthropic 的研究，强调 Agent 的核心竞争力在于端到端优化和通用性，简单胜于复杂。同时，为算法工程师在 Agent 发展浪潮中提出了实用的建议，如积累测试集、学会微调等。

为什么 AI Agent 需要专属浏览器？

海外独角兽

mp.weixin.qq.com

04-08

7032 字 · 约 29 分钟

文章深入探讨了 AI Agent 对浏览器的需求，指出传统浏览器在自动化抓取、交互和实时数据处理方面存在不足。文章分析了现有 headless browser 的缺点，如性能问题、部署复杂性和脚本脆弱性。提出了利用 LLM 和 VLM 技术构建新一代 headless browser 的蓝图，通过将自然语言指令转换成 Playwright 代码，提升 AI 对网页的理解和适应能力。此外，文章还讨论了市场机会，强调了 AI Agent 的普及对浏览器自动化工具的需求增长。GTM 策略、潜在风险以及竞争格局，强调了开源社区和开发者体验的重要性。Browserbase 推出的 StageHand 框架允许开发者使用自然语言与网页交互，是这一理念的实践。

实测：阿里云百炼上线「全周期 MCP 服务」，AI 工具一站式托管

赛博禅心

mp.weixin.qq.com

04-09

2066 字 · 约 9 分钟

阿里云百炼正式推出全周期 MCP 服务，覆盖服务注册、云托管、Agent 调用和流程组合，旨在解决 AI 应用开发中工具集成的痛点。该服务将工具调用从模型厂的私有功能转变为通用能力，并具备完整产品形态，是阿里云 AI 商业化的重要一步。开发者可以通过官方托管服务或自建服务两种方式使用 MCP。官方托管服务零门槛，通过开通并填写 API key 即可在 Agent 或流程中直接调用，而自建服务则适合企业开发者将内部服务 MCP 化。MCP 与 Plugin 的区别在于协议开放性、服务部署方式和调用范式。MCP 旨在让所有模型理解同一种“服务语言”，服务由平台托管，支持多步调度和多工具组合。MCP 的出现将 AI 调用外部工具从繁琐的工程任务转变为标准化的平台能力，重心从“人”转移到“AI”，服务被设计成易于 AI 理解和使用。

AI 进阶：从 Vibe coding 到职场必备

浮之静

mp.weixin.qq.com

04-08

9223 字 · 约 37 分钟

文章首先介绍了 Shopify CEO 提出将熟练使用 AI 作为员工基本要求的内部备忘录，强调了 AI 在企业生存和竞争中的核心地位，以及“AI 优先”的资源配置理念，具体措施包括将 AI 使用情况纳入绩效考核。随后，文章详细阐述了“Vibe coding”这一新兴编程方式，即通过自然语言和提示工程与 AI 协同完成编码任务，并总结了 12 条 Vibe coding 的实践技巧，包括与 AI 沟通需求、选择简洁技术栈、提供充足上下文、借助图片示例等。最后，文章分享了一个使用 TypeScript 搭建 MCP 服务器的 Prompt 案例，展示了 Vibe coding 在实际开发中的应用。

Captions：两天做出 MVP、5 亿美金估值，TikTok 想干掉它、投资人争着投它

Founder Park

mp.weixin.qq.com

04-08

20094 字 · 约 81 分钟

Captions：两天做出 MVP、5 亿美金估值，TikTok 想干掉它、投资人争着投它

Captions 是一款 AI 音视频创作应用，通过 AI 生成 3D 虚拟形象、AI 剪辑、AI 对口型以及自动添加字幕、眼神交流等创新功能，快速获取了大量创作者用户，并采用了订阅制的商业模式。文章深入分析了 Captions 抓住用户痛点、通过数据飞轮不断优化模型、以及独特的“秘密路线图”等关键策略。Captions 团队强调解决实际问题的重要性，并积极探索 AI 在视频创作领域的应用，致力于降低视频制作的成本和门槛，其未来的发展方向是角色生成模型。文章还探讨了 AI 创业公司在商业模式、技术债务等方面面临的挑战和机遇。

深度测评丨 Midjourney V7 硬刚 GPT-4o：谁才能笑到最后？

优设

mp.weixin.qq.com

04-09

8616 字 · 约 35 分钟

文章对 Midjourney V7 Alpha 进行了深度测评，并与 GPT-4o 进行了对比。V7 Alpha 在图像质量上有所提升，新增个性化功能和草稿模式。个性化功能可根据用户审美偏好生成图像，草稿模式提升渲染速度和降低成本。V7 Alpha 在写实、插画、3D 和超现实主义等风格多样性方面表现出色。然而，在提示词遵循方面，V7 Alpha 表现不佳，无法准确按照提示词生成图像。在文本渲染方面，GPT-4o 表现最优，V7 Alpha 生成的文字存在明显差距。草稿模式目前测试下来功能尚不稳定，体验感不佳。总体而言，V7 Alpha 在图像生成方面有所进步，但在提示词遵循和文本渲染方面仍需改进。

藏师傅 4o 图片提示词合集：让你的 4o 作图创意惊艳 10 倍

歸藏的AI工具箱

mp.weixin.qq.com

04-08

4398 字 · 约 18 分钟

本文作者分享了使用 GPT-4o 进行图像生成的多种创意玩法和提示词，提供了大量可直接使用的 prompt 和 prompt 思路。内容涵盖微观世界、3D 图标自由创作、手帐风格、照片涂鸦、游戏角色结合、经典电影萌化以及渐变色提取等多个方面，每个玩法都提供了详细的提示词和效果展示图。作者强调，创意并非凭空产生，而是通过有意识地联结不同领域的元素，打破常规思维，并重新观察日常事物而得来。AI 工具只是扩展了创意实现的能力边界，真正的创意源于人类的情感、经历和思考。

对话 Rabbit 创始人吕骋：做 AI Agent，向所有人开战

硅星人Pro

mp.weixin.qq.com

04-08

18472 字 · 约 74 分钟

文章是对 Rabbit 创始人吕骋关于 RabbitOS Intern 的深度访谈。吕骋强调 Rabbit 并非硬件公司，而是致力于构建一个基于 AI Agent 的全新操作系统，直接对标 Manus 等竞争对手，旨在打破传统 APP 模式的局限。RabbitOS Intern 是实现这一愿景的关键一步，通过跨平台通用 Agent，以自然语言操控机器底层运行，颠覆现有 GUI 界面。吕骋认为，AI Agent 的核心在于重塑人机交互，将规划、推理和执行的控制权下放给机器，实现更高效、智能的任务处理。他还坚信，未来应该只有一个操作系统在云端，它可以流到任何设备里面。他分享了对行业趋势、竞争格局和产品定价的思考，以及渡鸦的经验对本次创业的影响，并认为真正的壁垒不是技术，而是执行和解决细节问题的能力，坚信 Rabbit 将在 AI 领域取得领先地位，

Day.ai：HubSpot CPO 再创业、红杉资本投资，AI Native 的 CRM 应该怎么做？

Founder Park

mp.weixin.qq.com

04-10

10571 字 · 约 43 分钟

Day.ai：HubSpot CPO 再创业、红杉资本投资，AI Native 的 CRM 应该怎么做？

文章介绍了 Day.ai 这家 AI 原生 CRM 公司，由前 HubSpot 首席产品官 Christopher O'Donnell 创立，旨在解决传统 CRM 系统中数据不完整、工作流程复杂等问题。Day.ai 通过 AI 技术，能够自动从用户的邮件、会议记录等信息源中提取数据，构建完整的客户关系背景信息，并分析邮件内容和会议记录，自动生成待办事项，提醒用户及时跟进。红杉资本合伙人 Pat Grady 与 Christopher O'Donnell 的对话，揭示了 Day.ai 通过 AI 原生设计，从一开始就避免了传统 CRM 的数据压缩问题，从而能够提供更接近真实客户关系全貌的 CRM 体验。Day.ai 的目标是打造销售界的 Spotify，让 CRM 真正服务于销售人员，提升他们的工作效率和幸福感。未来，Day.ai 有望通过持续的技术创新和用户反馈，成为 AI 原生 CRM 领域的领导者。

被朱啸虎“当头一棒”之后，我们盘点了 10 家头部人形机器人公司的生存实况

十字路口Crossing

mp.weixin.qq.com

04-08

6498 字 · 约 26 分钟

文章针对金沙江创投朱啸虎对人形机器人商业化前景的质疑，盘点了宇树机器人、众擎机器人、优必选机器人等 10 家国内外头部公司，分析了人形机器人行业在快速发展的同时，面临的商业化落地难、成本高昂、应用场景受限等共性问题。文章探讨了“人形”的必要性，以及在工业和家庭环境应用上的差异与挑战，指出人形机器人需要解决实际需求和技术瓶颈。文章总结认为，人形机器人行业虽前景广阔，但要实现真正成熟和普及，仍需长期探索与攻坚，跨越从工厂到家庭的“天堑”。

斯坦福《2025 年 AI 指数报告》

宝玉的分享

baoyu.io

04-09

11473 字 · 约 46 分钟

斯坦福大学发布的 2025 年 AI 指数报告，对人工智能领域的发展现状进行了全面而深入的分析。报告涵盖了 AI 技术能力的提升、在日常生活中的应用普及、商业领域的广泛投资与应用、以及全球 AI 发展格局的演变。报告指出，AI 在复杂任务处理、视频生成等方面取得了显著进展，并在医疗、交通等领域得到广泛应用。同时，中美 AI 模型性能差距逐渐消失，开源模型迅速追赶闭源模型。报告也关注了 AI 发展带来的伦理问题，如数据偏见、虚假信息等，并强调了负责任的 AI 治理的重要性。此外，报告还分析了 AI 对经济、教育和社会公众认知的影响，为决策者、商界领袖及公众提供了客观、全面的参考。

Shopify 新标准：将 AI 融入日常工作，已是基本要求

宝玉的分享

baoyu.io

04-07

2708 字 · 约 11 分钟

为了在 AI 时代保持领先，Shopify CEO Tobi Lütke 发布内部邮件，强调将 AI 融入公司文化，要求所有员工学习并在日常工作中应用 AI，甚至将其纳入绩效考核。邮件指出，AI 应成为 GSD 项目原型阶段的核心工具。同时，团队在申请更多招聘名额和资源之前，需要证明其目标无法通过 AI 完成。邮件还分享了 Shopify 在 AI 领域的实践，并鼓励员工分享 AI 使用经验。此举旨在赋能商家，并在 AI 驱动的电商未来中占据领先地位。Tobi 认为，AI 将彻底改变 Shopify 的工作方式，并期望员工共同探索 AI 无处不在的世界中创业的可能性。

奥特曼最新访谈认可"套壳"：多数改变世界的公司，最初都是这样

量子位

qbitai.com

04-07

2740 字 · 约 11 分钟

OpenAI CEO 奥特曼在最新访谈中，回应了关于 GPT-4o 吉卜力风格走红和 AI 初创企业“套壳”的质疑。他认为，技术驱动的变革降低了创业门槛，AI 的出现将解决全球对软件需求的巨大缺口。AI Agent 将改变开发工作流，开发者只需用自然语言描述需求，Agent 就能生成完整的功能代码。奥特曼强调，AI 更多是赋能工具，而非完全替代人类，并预测 AI 将在编程和智能体领域带来颠覆性突破。他还建议从业者积极拥抱 AI 技术，适应 AI 时代的新工作方式，优先考虑能接触前沿技术的环境，并把是否积极采用 AI 作为评估雇主的首要标准。奥特曼认为 AI 正在以更成熟的方式赋能人类，提升创造力，解决社会问题，重塑我们的生活。

一个不太焦虑的 CEO 是怎么练成的｜和猫助聊多抓鱼的八年，至暗时刻和新计划

十字路口Crossing

mp.weixin.qq.com

04-04

21910 字 · 约 88 分钟

文章以播客访谈形式，深入探讨多抓鱼创始人猫助的八年创业历程，涵盖 AI 技术在二手书交易平台 C2B2C 模式中的应用实践与思考，例如向量模型在搜索系统中的应用，以及阿里模型在服装分类中的尝试。猫助分享了面对市场变化、融资挑战和个人生活变故时的心路历程，以及对企业经营、团队管理、用户价值和社会责任的深刻理解。她强调性格、兴趣和社会洞察在创业中的重要性，并反思企业发展与个人价值实现的平衡，以及从追求完美到接受不完美的转变。文章还探讨了中文内容数字化、绝版书的价值，以及信息过载时代策展的重要性，体现多抓鱼在知识传播和社会文化方面的价值。最后，猫助分享了对创业、融资、企业治理以及个人成长的心得体会，为创业者提供了宝贵的经验和启示。

在分析了 2443 家 AI 公司和 802 位投资人后，我们发现…

十字路口Crossing

mp.weixin.qq.com

04-05

8202 字 · 约 33 分钟

该报告深入分析了美国 AI 创业生态，通过对 2443 家 AI 初创公司和 802 位投资人的数据进行挖掘，揭示了美国 AI 早期创业的融资特点、行业分布、地域格局和投资人偏好，为中国 AI 创业者提供了一张清晰的 AI 资本市场导航图，帮助他们了解美国 AI 领域的发展趋势和投资机会，从而更好地制定创业和融资策略。报告指出，美国 AI 创业公司普遍采取“小额快速”的融资策略，To B 企业级应用和 AI 中间层技术栈是主流方向，硅谷在地理分布上占据绝对优势。此外，报告还分析了明星项目背后的投资人特征，包括新兴黑马基金、个人天使和 CVC 等。

AI 上周精选 #306: Astrocade， Llama 4， Nova Act

Last Week in AI

lastweekin.ai

04-08

1871 字 · 约 8 分钟

AI 上周精选 #306: Astrocade， Llama 4， Nova Act

本期 AI 上周精选涵盖了 AI 领域的最新发展。Meta 推出了 Llama 4 系列，该系列使用混合专家模型（Mixture of Experts，MoE）架构，但因性能未达预期而受到批评。亚马逊推出了 Nova Act，这是一种能够控制网络浏览器的 AI 智能体。Adobe Premiere Pro 还发布了 AI 驱动的视频扩展功能。此外，OpenAI 的 ChatGPT 在付费用户和收入方面实现了显著增长。其他新闻包括 Runway 的 Gen-4 视频生成模型的发布，以及 Microsoft Copilot 和谷歌人工智能产品的更新。在商业方面，英伟达的 H20 芯片受到中国科技巨头的青睐，并且在 AI 药物发现和视频生成领域有大量投资。研究重点包括 DeepMind 的通用人工智能安全方法，以及研究表明大型语言模型可以通过图灵测试。在政策方面，联合国警告说 AI 可能会扩大数字鸿沟，出版商敦促各国政府采取措施，解决人工智能训练数据中的版权问题。

Claude 的内心世界：Llama 4 的视觉-语言融合专家模型，更开放的多模态模型，表格数据专用神经网络

deeplearning.ai

04-09

3738 字 · 约 15 分钟

Claude 的内心世界：Llama 4 的视觉-语言融合专家模型，更开放的多模态模型，表格数据专用神经网络

本期 deeplearning.ai Batch 讨论了美国关税政策对全球贸易和人工智能发展的影响，作者认为关税总体上不利于人工智能发展，但可能在一定程度上促进国内机器人和自动化产业。Anthropic 的研究揭示了大型语言模型 (LLM) 即使没有经过明确训练也能进行推理，并展示了其内部推理过程的方法。Meta 发布的 Llama 4 系列模型具有超长上下文窗口，阿里巴巴 Qwen2.5-Omni 7 B 进一步展示了开源模型在多模态任务中的潜力。

BestBlogs.dev 精选文章 第 42 期

目录

BestBlogs.dev 精选文章第 42 期