BestBlogs.dev 精选文章 第 29 期

01-09

4741 字 · 约 19 分钟

微软研究团队发布了一篇长达 80 页的综述论文《Large Language Model-Brained GUI Agents: A Survey》，系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出，通过将大语言模型（LLMs）与多模态模型（Visual Language Models, VLMs）相结合，GUI 智能体可以根据自然语言指令自动操作图形界面，并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈，更推动了人机交互方式从「点击 + 输入」向「自然语言 + 智能操作」的跃迁。论文详细介绍了 GUI 智能体的核心架构、技术挑战、实际应用和未来展望，为研究者和开发者提供了全面的指导框架。

Just keep scaling！思维链作者 Jason Wei 40 分钟讲座剖析 LLM 扩展范式

01-04

9485 字 · 约 38 分钟

Just keep scaling！思维链作者 Jason Wei 40 分钟讲座剖析 LLM 扩展范式

Jason Wei 是 OpenAI 的资深研究科学家，以其在思维链提示、指令微调和涌现现象方面的贡献闻名。他在宾夕法尼亚大学的讲座中详细剖析了大型语言模型（LLM）的扩展范式，从规模扩展到思维链和强化学习的推理扩展。讲座强调了扩展是推动 AI 进步的核心引擎，并探讨了扩展定律、思维链提示和扩展强化学习在提升模型性能中的作用。此外，Jason Wei 还展望了 AI 在科学、医疗、多模态、工具使用和应用落地等领域的未来发展，并分析了 AI 研究文化从模型优化到数据优化的转变。

手机「自动驾驶」大揭秘！vivo 万字综述探讨大模型手机自动化

01-07

5407 字 · 约 22 分钟

本文详细介绍了 vivo AI Lab 联合香港中文大学 MMLab 等团队发布的关于大模型驱动的手机自动化智能体的综述论文。论文长达 48 页，覆盖了 200 余篇文献，系统总结了基于大模型的手机自动化技术的发展历程、技术框架、应用场景及未来挑战。文章首先回顾了传统手机自动化技术的局限性，如通用性差、维护成本高、意图理解能力弱等，随后介绍了大语言模型（LLM）如何通过自然语言理解、多模态感知和推理决策能力，推动手机自动化的智能化发展。论文还详细探讨了手机 GUI 智能体的框架设计、模型选择与训练、数据集与评估方法，并指出了未来研究的方向，如数据集多样性、设备端部署效率和安全问题等。最后，文章展望了基于大模型的手机 GUI 智能体在复杂任务中的自主性提升和用户体验优化。

当 AI 模型行为失控时，用户真正想要的是什么，以及更多...

deeplearning.ai

01-08

3622 字 · 约 15 分钟

在这篇文章中，吴恩达分享了他用于 AI 辅助编程的软件栈，强调了对所用工具持有明确观点以加速开发的重要性。他分享了他当前的软件栈，包括使用 Python、FastAPI、Uvicorn、MongoDB 以及 AI 工具如 OpenAI 的 o1 和 Anthropic 的 Claude 3.5 Sonnet（Anthropic 的 AI 模型）。吴恩达强调了 NoSQL 数据库在快速原型设计中的优势以及 AI 辅助在编程中的重要性。他还提到，随着他发现新工具和技术，他的软件栈会定期更新。文章还介绍了 Anthropic 的 Clio 工具，该工具分析了用户与 Claude 3.5 Sonnet 的交互情况。Clio 使用 Claude 本身来提取和聚类匿名对话数据，揭示了用户如何与模型交互的洞察。该工具识别了常见的用途，如软件开发，以及小众用途，如在《龙与地下城》中担任地下城主（游戏中的主持人角色）。它还发现了 Anthropic 安全分类器的政策违规和缺陷，为改进模型性能和安全性提供了宝贵的数据。

AI 创新加速：揭秘 Coze、元器、Dify、千帆、百炼如何推动 Agent 开发新纪元

人人都是产品经理

woshipm.com

01-05

3839 字 · 约 16 分钟

AI 创新加速：揭秘 Coze、元器、Dify、千帆、百炼如何推动 Agent 开发新纪元

文章指出，随着大模型的快速发展，Agent 技术已成为大模型落地的主流选择，能够处理复杂指令、多模态信息，并在个性化推荐、自动化业务流程管理等领域展现出巨大潜力。文章强调，企业应采取积极探索与谨慎评估并重的策略，既要保持理性，也要保持乐观。文章详细分析了大模型的原生能力与局限，指出大模型在语义理解、逻辑推理、内容生成等方面表现出色，但在特定领域的深入理解、时效性、记忆能力、鲁棒性等方面存在不足。为突破这些局限，主流趋势是通过 Agent 增强大模型的能力，使其具备执行复杂任务、与环境交互、自主决策和长期记忆等关键能力。文章还介绍了国内知名的 Agent 开发平台，包括百度的千帆、阿里的百炼、字节的 Coze、Dify 以及腾讯的元器，并对这些平台的核心功能、优势与不足进行了详细对比。最后，文章探讨了 Agent 开发生命周期、企业落地关键点以及行业发展趋势，强调企业在应用大模型时需要主动参与数据、信息和知识的处理，并通过插件实现与现有系统的无缝集成。

大模型 is all you need？

阿里云开发者

01-08

14037 字 · 约 57 分钟

本文从语义向量和业务场景的角度出发，深入探讨了大模型的能力、应用侧重点及优化策略。文章首先通过语义向量的映射、距离计算等操作，解释了大模型的能力，并划分了不同任务的难度层级。接着，通过智能客服案例，详细介绍了大模型在实际业务中的落地流程和经验，包括目标设定、模型能力、应用难度、需求拆解和具体实施步骤。文章还提出了 AI 客服系统的回复质量评估框架，强调了系统角色定义、回复模板的使用以及如何通过 prompt 技巧优化 AI 客服的回复。最后，文章探讨了基座模型能力的增强如何增加潜在应用场景，并增厚应用层的价值，同时对比了互联网和生成式 AI 的收入结构差异。

共学 | 2025 年，更加有效地搭建 Agent

魔搭ModelScope社区

01-09

20014 字 · 约 81 分钟

本文由魔搭社区撰写，主要探讨了在 2025 年如何更有效地搭建 Agent。文章首先介绍了通过 prompt 构建 Agent、多 Agent 和 workflow 的尝试，强调了构建适合业务需求的系统的重要性，并提出了实施 Agent 时应遵循的三个核心原则：保持设计简单、优先考虑透明度和精心设计 Agent-计算机接口 (ACI)。接着，文章展示了使用 prompt chain 技术处理文本数据的示例，通过多个步骤将非结构化的业绩摘要转换为结构化的 Markdown 表格。此外，文章还介绍了使用 prompt chain 和 router 工作流程优化 LLM 调用的方法，通过将任务分解为固定子任务以提高准确度。最后，文章分析了市场变化对客户、员工、投资者和供应商等利益相关者的影响，并提出了相应的建议行动，强调灵活性、创新和沟通的重要性。

Vertex AI RAG 引擎：使用您的数据构建和部署 RAG 实现

Google Cloud Blog

cloud.google.com

01-10

1158 字 · 约 5 分钟

Google Cloud 宣布 Vertex AI RAG 引擎正式发布，这是一项完全托管的服务，旨在帮助企业使用自己的数据和方法构建和部署 RAG（检索增强生成）实现。RAG 引擎解决了模型演示与实际性能之间的差距，这对于在企业环境中部署生成式 AI 至关重要。它提供了选择模型、向量数据库和数据源的灵活性，允许无缝集成到现有基础设施中。该服务通过简单的配置更改，支持不断演进的用例，并提供工具来评估不同的 RAG 配置。主要功能包括用于定制解决方案的 DIY RAG、强大的搜索功能、不断增长的各种数据源连接器列表，以及增强的性能和可扩展性。定制选项允许微调解析、检索和生成组件。该引擎与 Gemini API 原生集成，能够提供上下文相关的答案。入门的实际步骤包括通过 Vertex AI Studio 访问引擎，并探索快速入门文档和 GitHub 仓库。

基于 NVIDIA AI 的结构化报告生成蓝图

LangChain Blog

blog.langchain.dev

01-07

690 字 · 约 3 分钟

本文介绍了 LangChain 与 NVIDIA 合作开发的结构化报告生成蓝图，该蓝图利用 NVIDIA NIM 微服务和 LangGraph 技术。该蓝图旨在解决企业环境中部署 AI 代理时面临的挑战，例如高昂的推理成本、高延迟和数据隐私问题。它利用 NVIDIA NIM 支持的 Mistral AI 和 Meta Llama 等开源模型，从而实现更高的控制度、更好的定制性和更低的成本。LangGraph 能够构建复杂的多步骤代理工作流程，LangGraph 平台和 LangSmith 则简化了部署、监控和测试流程。该解决方案旨在帮助企业创建安全、高性能且满足特定需求的 AI 代理，克服闭源解决方案的局限性。

我是如何从零开始手搓一个独立游戏并上架 Steam 的

人人都是产品经理

woshipm.com

01-04

9442 字 · 约 38 分钟

本文详细记录了作者从零开始开发独立游戏《中国式加班》并成功上架 Steam 的经历。文章分为多个阶段，涵盖了项目启动、技术选择、美术资源获取、游戏引擎开发、AI 工具的应用、任务分解、多国语言翻译、内测与上架等关键环节。作者通过自学和现有技术栈（Vue + Electron）制作了游戏 DEMO，但由于美术资源成本过高，项目一度被封存。直到 Stable Diffusion 和 ChatGPT 的出现，作者得以低成本重启项目，并通过制定详细的路线图，简化游戏玩法并专注于剧情设计，最终完成了游戏。文章还分享了如何利用 AI 工具生成美术素材、音乐和多国语言翻译，以及如何克服开发过程中的技术挑战和创作瓶颈。最终，作者成功将游戏上架 Steam，并分享了游戏设计、测试和发行的经验。

AI 艺术工程——ComfyUI 与 comfyanonymous

Latent Space

latent.space

01-04

9267 字 · 约 38 分钟

本文探讨了 comfyanonymous 创建的基于节点的 AI 图像生成工具 ComfyUI 的发展和影响。最初，ComfyUI 作为 Midjourney 和 AUTOMATIC1111 等更易用工具的替代方案出现，但凭借其强大且可定制的工作流程，它迅速在高级用户中普及。该工具支持图像转视频动画、3D 资产创建等多种应用场景，并拥有一个快速发展的社区，GitHub 星标已超过 60,000 个。文章还深入探讨了创作者的历程，从尝试高分辨率修正到开发自定义节点图，并强调了潜在空间对 Stable Diffusion 效率提升的关键作用。此外，文章还讨论了 Comfy 在 Stability AI 的工作，重点介绍了 SDXL 和 SD3.5 模型的开发，并比较了它们与 Flux 在创意性和一致性方面的优势。

2025 伊始，万字长文刷新 AI 产品 20 个认知

InfoQ 中文

01-05

9291 字 · 约 38 分钟

文章全面分析了 2024 年 AI 技术的发展现状和产品化挑战，指出技术发展迅速但产品迭代滞后，导致技术快速淘汰与产品落地之间的时间差问题。全球市场由 OpenAI 等大公司主导，呈现赢家通吃局面，而国内市场则更注重实用性和细分领域的创新。文章提出了 AI 产品设计的“三高一准”原则，即高频刚需、高错误代价、高机械性和生成内容只需评价“准不准”。此外，文章还探讨了 AI 产品商业化中的优先级评估方法，分析了用户付费意愿低的原因，并提出了通过提升内容质量来增强用户付费意愿的策略。最后，文章强调了 AI 产品经理需要具备的技术理解和复合能力，以及在 AI 浪潮中保持冷静和策略的重要性。

当 AI 创业公司遇困境，能借“Agent 化”找到新出路吗？

腾讯科技

01-08

9398 字 · 约 38 分钟

文章探讨了 AI Agent 技术的发展现状和未来趋势。2023 年底斯坦福大学的 AI 实验项目引发了对 AI Agent 的期待，但一年后，许多产品仍停留在对话机器人阶段。2024 年，AI Agent 成为科技巨头竞争的新焦点，OpenAI、Anthropic、微软、谷歌等公司纷纷推出相关产品，国内大厂如百度、阿里、腾讯也积极布局。尽管 AI Agent 依赖 LLM 的“黑盒”特性，存在不可预测性和工作流程复杂性问题，但其在垂直领域的应用潜力巨大，特别是在替代人工操作和提升效率方面。2025 年有望成为 AI Agent 商用爆发的元年，AI 发展将从预训练转向构建 AI Agent 和工具，强调智能体、合成数据和推理时计算的重要性。

已经验证了 PMF 的 AI Coding，在国内的落地会有何不同？

Founder Park

01-06

12439 字 · 约 50 分钟

2024 年，AI Coding 成为最火的 AI 应用赛道，Cursor 和 Devin 等公司获得高额融资，显示出该领域的产品市场匹配（PMF）和巨大潜力。AI 帮助人类写代码的场景已经看到 PMF，并且是最有可能实现 AGI 和完全自动化的赛道。当 AI 可以直接生成软件时，市场空间将迎来十倍、百倍的释放。Cursor 作为 AI Coding 工具，通过结合模型、工程和产品三层能力，成功实现了 PMF，并在短时间内获得了显著的市场增长和用户依赖。国内大模型技术在 AI Coding 领域的应用，强调技术信仰与商业化的平衡，以及如何通过创新融合大模型和软件工程，解决用户问题。AI 代码类创业公司的定位和发展方向，分析了多个产品如 Cursor、Bolt.new 等在解决不同编程任务中的角色，并探讨了从 Copilot 到 Autopilot 的进化路径。AI Coding 在中国的 ToB 市场具有独特优势，能够通过低成本实现个性化需求，推动 SaaS 向“服务即软件”转变，激发更多需求。

刚刚，奥特曼更新博客：创业第十年，我的反思

01-06

3650 字 · 约 15 分钟

山姆・奥特曼在创业第十年发布了一篇反思博客，回顾了 OpenAI 的发展历程，特别是 ChatGPT 的推出和 AGI 的实现。他提到公司治理的挑战，尤其是解雇事件，认为这是善良的人治理的失败。奥特曼强调多元化观点和丰富经验的董事会的重要性，并感谢了支持 OpenAI 的合作伙伴和朋友。他展望未来，认为超级智能将大大加快科学发现和创新的速度，并强调 OpenAI 将继续推进安全和利益共享的思考。

老黄重磅发布 5090，定价 15000！22000 元的世界最小 AI 超级计算机也来了

量子位

qbitai.com

01-07

3261 字 · 约 14 分钟

老黄重磅发布 5090，定价 15000！22000 元的世界最小 AI 超级计算机也来了

在 CES 2025 上，英伟达 CEO 黄仁勋发布了多款重磅产品，涵盖了从高性能 GPU 到个人 AI 超级计算机的多个领域。首先，英伟达推出了基于 Blackwell 架构的 RTX 5090 GPU，具备 920 亿个晶体管、4000 AI TOPS 的性能和 1.8 TB/s 的内存带宽，定价为 1999 美元。此外，英伟达还发布了全球最小的个人 AI 超级计算机 Project DIGITS，搭载 Grace Blackwell 超级芯片（GB10），能够在桌面上运行 2000 亿参数的大模型，起售价为 3000 美元。Project DIGITS 不仅支持本地开发和推理，还能无缝部署到云端或数据中心。英伟达还宣布开源商用基础模型 Cosmos，该模型基于 2000 万小时的驾驶和机器人视频数据训练，旨在加速自动驾驶和机器人技术的研发。Cosmos 提供了生成物理合成数据的能力，并支持开发者使用英伟达 NeMo 框架进行微调。此外，英伟达还推出了 AI 基础模型服务，包括 NIM 微服务和 AI 蓝图，帮助开发者在 RTX AI PC 上轻松部署生成式 AI 模型。这些发布标志着 AI 技术正逐步进入各个行业，成为主流应用。英伟达通过高性能硬件和开源软件的结合，进一步推动了 AI 技术的普及和创新。

黄仁勋的新故事=RTX5090+“三大计算系统”？

腾讯科技

01-07

4021 字 · 约 17 分钟

在 CES 2025 上，英伟达 CEO 黄仁勋发表了主题演讲，重点介绍了英伟达在计算、人工智能和自动驾驶领域的最新进展。首先，英伟达发布了全新的 RTX 50 系列显卡，采用 Blackwell 架构，性能大幅提升，尤其是旗舰产品 RTX 5090，拥有 920 亿个晶体管和 3352 TOPS 的计算能力。此外，英伟达还推出了面向个人用户的 AI 超级计算机 Project Digits，能够处理高达 2000 亿参数的 AI 模型，并支持多设备协同工作。在 AI 代理领域，英伟达展示了其创新的 Agentic AI 系统，强调 AI 代理将成为未来数万亿美元的市场。最后，英伟达推出了物理世界 AI 模型 Cosmos，旨在通过多模态模拟生成合成数据，推动工业自动化和环境监测等领域的智能化转型。黄仁勋还提到，英伟达与丰田合作开发下一代自动驾驶技术，并发布了第四代 Thor 智驾计算平台，进一步巩固了其在自动驾驶领域的领先地位。

深度｜诺奖得主 Hinton：人类当下局面是，旧石器时代的大脑、中世纪的制度与类神的技术

Z Potentials

01-04

21713 字 · 约 87 分钟

深度｜诺奖得主 Hinton：人类当下局面是，旧石器时代的大脑、中世纪的制度与类神的技术

Geoffrey Hinton 在本文中深入探讨了人工智能的本质、发展及其对人类社会的潜在威胁。他指出，智能的本质是学习，而非推理，人工智能通过神经网络进行学习，语言和推理是在视觉和运动控制基础上发展出来的。当前人类面临旧石器时代的大脑、中世纪的制度与类神的技术之间的不匹配，导致技术变革带来的挑战加剧。Hinton 还讨论了人工智能的长期生存威胁，认为可能创造出比人类更智能的系统，这些系统将接管人类的位置。此外，他强调了国际合作在应对 AI 生存威胁方面的重要性，并探讨了 AI 在情感机制、伪造视频检测和科学实验中的应用。最后，Hinton 讨论了数字智能与模拟智能的能源效率问题，以及 AI 是否可能拥有主观体验的议题。

DeepSeek 创始人专访：中国的 AI 不可能永远跟随，需要有人站到技术的前沿

Founder Park

01-08

11345 字 · 约 46 分钟

DeepSeek 创始人专访：中国的 AI 不可能永远跟随，需要有人站到技术的前沿

DeepSeek 创始人梁文锋在专访中分享了对中国 AI 发展的深刻见解，强调中国必须站到技术前沿，避免永远跟随。DeepSeek 通过发布高性价比的开源模型 V3 和 V2，引发了大模型价格战，并在多项测评中表现优异，接近 GPT-4o 和 Claude 3.5 Sonnet 的水平。梁文锋强调，DeepSeek 的目标是推动原创式创新，而非简单的商业化。他提到开源和团队成长的重要性，认为开源更像文化行为而非商业行为。DeepSeek 的 AI 研究不仅限于量化投资，更关注金融市场的整体描述和范式探索。公司采用自下而上的创新模式，鼓励员工自发提出想法并灵活调配资源。梁文锋认为创新需要自信，顶尖人才在中国被低估，解决最难的问题才能吸引他们。他还分享了幻方在招聘和管理上的独特理念，强调能力重于经验，创新需要自由发挥和试错机会。梁文锋认为未来的大模型市场将呈现专业化分工，基础模型和基础服务将由专门公司提供。创新是自发的，不是刻意安排的，DeepSeek 更注重技术生态的构建，而非短期应用开发。

“AGI 不会在 2025 年出现”，Gary Marcus 对 AI 的 25 大预测！

CSDN

01-03

3312 字 · 约 14 分钟

“AGI 不会在 2025 年出现”，Gary Marcus 对 AI 的 25 大预测！

Gary Marcus 是一位在 AI 领域具有广泛影响力的科学家和作家，他对 2025 年 AI 发展做出了 25 项预测。这些预测涵盖了技术、商业、监管等多个方面，核心观点是 AGI（通用人工智能）不会在 2025 年出现。Marcus 指出，当前 AI 技术仍然存在诸多局限性，如“幻觉”问题（生成内容不准确）、推理错误、以及缺乏技术护城河等。此外，AI 的商业应用远未达到预期，多数公司仍在亏损，且缺乏有效的监管措施。Marcus 还预测，AI 的能源消耗将继续增加，但大多数公司不会透明披露其使用情况。尽管 AI 在某些领域取得了进展，但其整体影响仍然有限，尤其是在复杂推理和实际应用中的表现不尽如人意。

2024，我追过的 AI 风口

赛博禅心