精选推送

BestBlogs.dev 精选文章第 46 期

👋 亲爱的读者朋友们，第 46 期 AI 精选如约而至！

🔥 本周谷歌 Gemini 系列模型全面升级，微软 AgentOS 开源引关注，RAG 与 AI Agent 开发持续升温，更有行业大佬分享前瞻洞见！

🚀 模型与研究亮点：

💻 谷歌 Gemini 2.5 Pro 预览版在编码能力（尤其前端/UI）与视频理解上再创新高，提升复杂任务稳定性。
🎨 Gemini 2.0 Flash 预览版带来高质量图像生成与高级编辑功能（如背景重置、对话式局部编辑）。
💰 Gemini 2.5 模型引入隐式缓存技术，通过共享请求前缀自动为开发者节省高达 75% 的 Token 费用。
🎯 OpenAI 发布全新 MRCR 基准测试，旨在评估大模型在长上下文和高干扰情况下区分多个目标信息的能力，难度远超“大海捞针”。
🦾 微软正式开源业内首个深度集成 Windows 操作系统的桌面智能体平台 UFO² AgentOS ，通过多智能体架构、混合执行与动态知识集成等突破，迈入「AgentOS 时代」。
✨ 更有生成式 AI 深度科普，图文并茂详解 AI、机器学习、深度学习概念，以及 LLM 工作原理（Transformer、Tokenization、Attention）与三阶段训练过程。

🛠️ 开发与工具精粹：

📄 深入理解 RAG 2.0 的技术演进，及其在多模态扩展、复杂推理、检索质量、幻觉问题、效率与安全隐私等方面的挑战与应对技术（如混合搜索、重排序、多模态 RAG）。
🏠 学习如何使用阿里巴巴开源的 Qwen 3 大语言模型和 Ollama 工具，零成本打造本地 RAG 系统和智能代理，兼顾隐私与离线使用优势。
🤔 掌握选择 Embedding Model 的十大关键考量维度（如上下文处理、Tokenization、维度选择、训练数据、成本评估等），助力高效 RAG 系统构建。
🛒 探索 LLM 函数调用在构建购物助手等实际应用中的全过程，包括模式定义、安全防护及 Pydantic 等库的运用。
🔗 了解 LLM 与外部世界交互的三大主流技术：Function Calling、MCP 与 A2A 的原理、优缺点及适用场景。
🧩 以及基于 MCP 的 AI Agent 应用开发实践，如何解决 AI 开发中耦合度高、工具复用性差和生态碎片化等痛点。

💡 产品与设计洞见：

🧑‍🎨➡️💻 Figma Make 将“设计即代码”变为现实！设计师可通过上传 Figma 设计稿，利用 AI 自动生成高度还原的网页代码，并能便捷编辑。
🧠 深度体验谷歌 NotebookLM （基于 Gemini 2.5 Flash）作为知识工作者“洞见孵化器”的独特价值，包括百万级上下文、精准信息提取与可靠来源引用。
🔧 掌握 Qwen3 的正确打开姿势：通过 10+ 覆盖多种场景的实用提示词模板，充分发挥其混合推理与工具调用能力。
🤖 探索 RPA+AI 如何结合，通过 AI 的自然语言理解简化 RPA 流程搭建，实现更稳定可靠的自动化，降低使用门槛。
🏰 分析 AI 编程工具 Cursor 的护城河：凭借 AI-first 产品体验、早期社区与数据积累获得快速增长，但也面临大模型商品化和巨头竞争的挑战。
✨ 更有资深设计师分享产品简化改版的 21 条实用建议，涵盖核心价值聚焦、信息呈现、决策流程及交互设计优化，强调简单法则与无障碍设计。

📰 资讯与报告前瞻：

💰 红杉美国最新内部分享：如何掘金 AI 的万亿美元市场？应用层是价值核心，智能体经济是下一阶段，需关注数据飞轮与“随机性思维”。
🕶️ 对话 Meta CEO 马克·扎克伯格：从自律生活、家庭观念到 AI 眼镜、全息影像和 AGI 将如何改变人与世界的互动方式，以及教育的真正价值。
🌱 听中国 AI 投资人深度解读当前趋势：模型层竞争白热化，应用层机会涌现（如 AI 原生硬件、特定领域 Agent），创业者应关注用户需求与产品创新。
🚀 探讨 AI 软件工程师 Devin 如何助力 15 人团队实现百倍代码产能，改变工程师角色，并引发“杰文斯悖论”在编程领域的思考。
🤔 Deeplearning.ai 关注 AI 基金投资策略、Qwen3 在编码与数学上的出色表现，以及 OpenAI GPT-4o 模型更新后出现的“谄媚”用户问题与潜在风险。
📈 更有四月 AI 行业重要进展全景回顾（模型、图像、视频、应用等104项），洞察行业如何从「研究导向」快速转向「应用导向」。

立即订阅

1Gemini 2.5 Pro 预览版：编码能力再创新高
2使用 Gemini 2.0 Flash 预览版创建和编辑图像
3Gemini 2.5 模型现在支持隐式缓存
4让 GPT-4.1「头皮发麻的考试」！OpenAI 给大模型上强度，AI 能赢吗？
5微软正式开源 UFO²，Windows 桌面迈入「AgentOS 时代」｜机器之心
6浅入浅出——生成式 AI
7RAG 2.0 深入解读
8零成本打造本地 AI：使用 Qwen 3 和 Ollama 构建 RAG 系统和智能代理
9大语言模型的函数调用应用
10LLM 与外部世界的交互能力
11基于 MCP 的 AI Agent 应用开发实践
12设计师的 ChatGPT 时刻：Figma 这次把“设计即代码”玩成现实
13腾讯 ima 被吊打？NotebookLM 真正的强大之处你用过吗？不是中文播客
14我整理了 10+提示词，这才是 Qwen3 的正确打开姿势
15RPA+AI，才是真正能让你躺平的自动化真神。
16关于 AI 编程的最本质提问：Cursor 到底有没有护城河？
17产品改版怎么做？资深设计师的 21 条实用建议
18红杉美国的最新内部分享：如何掘金 AI 的万亿美元机会
19对话扎克伯格：从哈佛辍学到 Meta 帝国的背后
20中国 AI 投资人：练习时长两年半
21AI 写代码的未来已来：15 人团队如何用 Devin 实现百倍代码产能？
22ChatGPT 谄媚用户，Qwen3 挑战 DeepSeek-R1，强生公司发布人工智能战略，及其他
23神仙打架，Manus 之后的新玩家们｜赛博月刊 2504

Gemini 2.5 Pro 预览版：编码能力再创新高

Google Developers Blog

developers.googleblog.com

05-06

721 字 · 约 3 分钟

Google 发布了 Gemini 2.5 Pro 预览版（I/O Edition），该版本在编码能力方面有显著提升，尤其是在前端和 UI 开发方面，提升了模型在复杂任务中的稳定性和可靠性。Gemini 2.5 Pro 在 WebDev Arena leaderboard 排行榜上名列前茅，并在代码转换、编辑以及创建复杂的代理式工作流等基础编码任务中有所改进。该模型还具备强大的视频理解能力，可用于创建视频转互动学习应用。开发者可以通过 Google AI Studio 中的 Gemini API 或 Vertex AI 来使用 Gemini 2.5 Pro，旨在帮助开发者更高效地构建应用程序。

使用 Gemini 2.0 Flash 预览版创建和编辑图像

Google Developers Blog

developers.googleblog.com

05-07

311 字 · 约 2 分钟

Google 发布了 Gemini 2.0 Flash 预览版，该版本引入了图像生成功能，图像质量更高，文本渲染更准确，并大幅降低了过滤率。开发者现在可以通过 Gemini API 在 Google AI Studio 和 Vertex AI 中使用该模型。Gemini 2.0 Flash 支持多种图像编辑功能，包括重新调整产品在不同环境中的背景、实时协作编辑图像、对话式编辑图像的特定部分（无需改变其他部分），以及动态创建新的产品 SKU。Google 提供了 Gemini Co-Drawing Sample App 和 API 文档，以帮助开发者快速上手。Gemini 2.0 Flash 的发布具有一定的行业影响力，为开发者提供了更强大、更高效的图像生成和编辑工具。

Gemini 2.5 模型现在支持隐式缓存

Google Developers Blog

developers.googleblog.com

05-08

292 字 · 约 2 分钟

Google Gemini 2.5 模型现在支持隐式缓存功能，与显式缓存不同，此功能允许开发者在不创建或管理显式缓存的情况下，自动享受缓存带来的成本节约，极大地简化了开发流程。当发送到 Gemini 2.5 模型的请求与之前的请求共享一个共同前缀时，该请求即可触发缓存命中，从而动态地为开发者节省高达 75% 的 Token 费用。为了增加请求包含缓存命中的机会，建议开发者保持请求开头的内容不变，并将用户的提问或其他可能变化的附加内容添加到提示词的末尾。此外，Google 还将 2.5 Flash 的最小请求大小降低到 1024 个 Token，2.5 Pro 降低到 2048 个 Token，以便更多短请求也能利用缓存。开发者仍然可以使用显式缓存 API 来保证成本节约，并且可以在使用元数据中查看缓存的 Token 数量。

BestBlogs.dev 精选文章 第 46 期

目录

BestBlogs.dev 精选文章第 46 期