BestBlogs.dev 精选文章 第 35 期

👋 亲爱的读者朋友们,欢迎阅读本期 AI 领域精选文章!

本周,AI 领域依旧精彩纷呈,大模型领域竞争白热化,开源力量持续发力,强化学习与大模型的结合成为提升性能的关键策略。AI 应用场景不断拓展,深度研究、智能编程、机器翻译等领域均有重要突破。人机协作新模式、具身智能与机器人的未来发展也引发了广泛关注。让我们一起深入了解本周 AI 领域的重大进展与创新!

本周亮点

  1. 大模型军备竞赛与开源浪潮: xAI 发布 Grok-3,性能超越 GPT-4o 并在 Chatbot Arena 登顶;阶跃星辰开源全球最大视频生成模型 Step-Video-T2V 和首款产品级开源语音交互模型 Step-Audio;达摩院开源 7B 视频理解模型 VideoLLaMA3;Google 发布 PaliGemma 2 Mix。

  2. 强化学习 + 大模型: OpenAI 论文证实强化学习可显著提升 LLM 性能,DeepSeek R1 等模型已成功应用;多篇文章深入解读 DeepSeek 技术细节(MoE、GRPO、MLA)。

  3. AI 驱动深度研究兴起: OpenAI 和 Perplexity 推出 Deep Research 功能,利用 AI 进行多步骤研究,快速生成报告;《深度研究的缔造者》一文深入探讨了“深度研究”代理的概念、技术实现和应用潜力。

  4. AI 编程助手百花齐放: 多款 AI 编程工具(Github Copilot、Cursor、Windsurf、DeepClaude 等)横向测评,助力开发者提高效率,AI 辅助编程成为热门赛道。

  5. 智能代理技术突破: LangMem SDK 旨在解决智能代理长期对话记忆缺失问题;DeepClaude 项目通过模型融合提升代码安全检查效果。

  6. AI 赋能多领域应用: AI 驱动的多轮评审润色流程显著提升翻译质量;专用向量数据库在向量搜索任务中优势凸显。

  7. 人机协作新范式: 《与 AI 协作 2000 小时后》一文分享了与 AI 协作的经验,强调将 AI 视为智能伙伴,并提出“非完美思维”等新视角。

  8. 具身智能与机器人发展: 宇树科技创始人王兴兴的访谈分享了低成本、高性能机器狗和人形机器人的研发经验;张亚勤院士预测 AGI 未来发展路径,强调大模型在自动驾驶、具身智能等领域的突破性作用。

🔍 想深入了解这些精彩内容?欢迎点击对应文章,探索更多 AI 领域的创新与发展!

1

20 万张 GPU!马斯克掏出「地表最强」大模型 Grok-3,排行榜登顶,复仇 OpenAI

机器之心jiqizhixin.com02-182094 字 (约 9 分钟)AI 评分: 93 🌟🌟🌟🌟🌟
20 万张 GPU!马斯克掏出「地表最强」大模型 Grok-3,排行榜登顶,复仇 OpenAI

文章报道了马斯克旗下 xAI 公司最新发布的旗舰大模型 Grok-3。Grok-3 系列包含轻量版 Grok 3 mini,强调快速响应。Grok-3 在 Math、Science 和 Coding 等多项基准测试中,大幅超越 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o 等模型,并在大模型竞技场 Chatbot Arena 中登顶。Grok-3 还具备强大的智能体能力,推出了对标 OpenAI Deep Research 的 DeepSearch 功能,能够进行深入研究、头脑风暴、分析数据、生成图像以及编写和调试代码。此外,文章还介绍了 Grok-3 的订阅和定价信息,以及 xAI 的开源原则。最后,马斯克暗示 xAI 将在技术竞争中胜过 OpenAI,展现出对自身技术竞争力的信心。

2

谷歌 PaliGemma 2 Mix:全新指令式视觉语言模型

Hugging Face Bloghuggingface.co02-191465 字 (约 6 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
谷歌 PaliGemma 2 Mix:全新指令式视觉语言模型

谷歌发布了 PaliGemma 2 Mix 模型,该模型是在 PaliGemma 2 基础上,通过混合视觉语言任务微调得到,并支持开放式提示词。PaliGemma 2 Mix 模型在 OCR、长短文本描述等任务上表现出色。该系列模型提供了不同参数规模和分辨率的选择,旨在为下游任务提供更好的预训练模型。文章通过实例展示了 PaliGemma 2 Mix 在通用视觉语言任务、文档理解、定位任务和图像文本识别等方面的能力,并对比了不同参数规模模型的性能差异。

3

接力 DeepSeek,阶跃星辰直接开源两款国产多模态大模型

机器之心jiqizhixin.com02-183566 字 (约 15 分钟)AI 评分: 93 🌟🌟🌟🌟🌟
接力 DeepSeek,阶跃星辰直接开源两款国产多模态大模型

阶跃星辰联合吉利汽车集团开源了两款多模态大模型:Step-Video-T2V 和 Step-Audio。Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型,采用 MIT 许可协议,支持免费商用。该模型使用了深度压缩变分自编码器 Video-VAE,实现了 16×16 的空间压缩比,以及具有 3D 全注意力机制的 DiT,用于将输入噪声去噪成潜在帧。Step-Audio 是行业内首款产品级开源语音交互模型,能根据不同场景生成情绪、方言、语种、歌声和个性化风格的表达。Step-Audio 突破传统 TTS 对人工采集数据的依赖,能生成高质量的合成音频数据,实现合成数据生成与模型训练的循环迭代。两款模型均已在「跃问」App 上线。Step-Video-T2V 在复杂运动、人物美感、视觉想象力等方面具备强大能力,参数量达到 300 亿,可以单次直接生成 204 帧、540P 分辨率的视频。Step-Audio 在多个主流公开测试集上性能领先,尤其擅长中文,通过 ToolCall 机制集成外部工具,并具备高情商对话和角色扮演能力。阶跃星辰致力于技术驱动,坚持预训练和基座大模型的研发,目标是构建 AGI。

4

达摩院开源 VideoLLaMA3:仅 7B 大小,视频理解拿下 SOTA | 在线可玩

量子位qbitai.com02-142856 字 (约 12 分钟)AI 评分: 92 🌟🌟🌟🌟🌟
达摩院开源 VideoLLaMA3:仅 7B 大小,视频理解拿下 SOTA | 在线可玩

本文介绍了达摩院开源的 VideoLLaMA3,这是一个以图像为中心构建的新一代多模态视频 - 语言模型。该模型仅有 7B 大小,在通用视频理解、时间推理和长视频理解三个核心维度评估中表现优异。同时,适用于端侧的 2B 版本在图像理解上也表现出色,在 InfoVQA 和 MathVista 等基准测试中取得领先。文章详细阐述了 VideoLLaMA3 以图像为中心的训练范式,包括视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容,以及任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP)两大创新技术。此外,文章还介绍了为构建高质量训练数据而构建的 VL3Syn7M 数据集,该数据集通过长宽比过滤、美学评分过滤等手段,确保图像质量和文本相关性。最后,文章提及了模型开源的意义和价值,并提供了论文地址和在线 Demo 链接。

5

OpenAI:强化学习确实可显著提高 LLM 性能,DeepSeek R1、Kimi k1.5 发现 o1 的秘密

机器之心jiqizhixin.com02-193557 字 (约 15 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
OpenAI:强化学习确实可显著提高 LLM 性能,DeepSeek R1、Kimi k1.5 发现 o1 的秘密

文章解读了 OpenAI 最新论文的核心观点,即通过强化学习训练大型语言模型(LLM)能显著提升其在复杂编程和推理任务中的性能表现。OpenAI 的 o3 模型在 IOI 2024 竞赛中达到金牌水平,并在 CodeForces 上取得与精英级人类相当的成绩(全球前 200 名,2724 分)。文章还引述博主观点,认为这种策略不仅适用于编程,更是通往 AGI 的关键路径。此外,文章提及 DeepSeek R1 和 Kimi k1.5 通过思维链(CoT)学习提升模型性能的独立研究,并探讨了通用强化学习在其他领域的应用潜力,以及对该观点的不同看法。

6

万字长文详解 DeepSeek 核心技术

腾讯云开发者mp.weixin.qq.com02-1710824 字 (约 44 分钟)AI 评分: 92 🌟🌟🌟🌟🌟
万字长文详解 DeepSeek 核心技术

本文详细介绍了 DeepSeek 系列模型的技术创新,包括 DeepSeek MoE 架构的细粒度专家划分、共享专家分离,以及为解决负载不均衡问题而提出的负载均衡策略。深入解析了 GRPO 算法相对于 PPO 的改进,通过减少 Value 模型来降低计算资源消耗。阐述了 MLA 如何通过低秩分解减少 KV Cache,降低推理成本。介绍了 MTP 如何通过一次性预测多个 token 来提升训练效率和推理速度。特别强调了 R1-Zero 完全基于强化学习训练出推理模型的突破性意义,以及 DeepSeek V3 在训练效率和成本控制方面的优势。同时,突出了 R1 在 R1-Zero 基础上,通过多阶段训练策略解决可读性和语言混杂问题,达到工程化落地的效果。整体而言,文章对 DeepSeek 的核心技术进行了全面而深入的解读。

7

Z Research|狂融数十亿美元的 AI 编程赛道,我们测评了 12 款当红产品,最惊喜的不只 Cursor

Z Potentialsmp.weixin.qq.com02-1810076 字 (约 41 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
Z Research|狂融数十亿美元的 AI 编程赛道,我们测评了 12 款当红产品,最惊喜的不只 Cursor

本文深入分析了 AI 编程赛道,通过行业 Mapping 概述了海内外多家 AI Coding 公司,并选取 12 款知名产品进行横向测评, 涵盖 Github Copilot、Cursor、Windsurf 等,覆盖基于 IDE 的插件、基于网页的 IDE、AI-native IDE 和纯模型四大类。文章设计了贪吃蛇小游戏和自动生成简历网站两个测试用例,从需求实现准确性、设计多样性、错误处理能力和上下文理解能力等维度进行对比分析。 测评结果显示,Windsurf 在实现用户需求和设计多样性上表现突出,Cursor 和 o3-mini-high 也有不错的表现。AI Coding 产品通过自动生成、审查和优化代码等方面协助开发者,提高开发效率,减少人为错误,并确保代码的一致性和质量。文章还探讨了 AI Coding 可能带来的生产关系变革,以及在内容分发上可能出现的新机会和模式,预示着软件开发模式的转变。

8

LangMem SDK:面向智能代理的长期记忆解决方案

LangChain Blogblog.langchain.dev02-181441 字 (约 6 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
LangMem SDK:面向智能代理的长期记忆解决方案

LangMem SDK 旨在解决智能代理长期对话记忆缺失和无法持续学习的问题。它通过提供长期记忆功能,使智能代理能够从对话中提取信息、优化行为并通过指令更新来维护长期记忆。该 SDK 包含语义记忆(存储知识)、程序记忆(存储行为)和情景记忆(存储经验)三种记忆类型,并通过应用程序编程接口调用和 LangGraph 集成,实现长期记忆。LangMem SDK 提供了一种高效、灵活的方式来构建具备长期记忆和自适应能力的 AI。

9

DeepSeek 缝合 Claude,比单用 R1/o1 效果都好!GitHub 揽星 3k

量子位qbitai.com02-141468 字 (约 6 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
DeepSeek 缝合 Claude,比单用 R1/o1 效果都好!GitHub 揽星 3k

本文介绍了 DeepClaude 这一创新项目,它通过 Rust 语言开发,将 DeepSeek R1 的 CoT 逻辑推理能力与 Claude 的文本生成能力无缝衔接,形成一个统一的 LLM 推理 API。实验结果表明,DeepClaude 在代码编辑基准测试中表现优异,甚至超越了单独使用 o1-high 和 R1 模型。该项目 100% 免费且开源,已在 GitHub 上获得 3k 星, 尤其适用于代码安全检查。DeepClaude 的作者认为,这种 AI 智能体组合的方式代表了一种“数字世界优先”的范式转变,将智能系统转变为主动的合作者。有网友进一步开发了三缝合玩法,将 DeepSeek-R1 和 Gemini 2.0 Flash 的思考结果与 Claude Sonnet 结合,在特定测试中取得了更好成绩。

10

专为向量搜索而生

Qdrantqdrant.tech02-173128 字 (约 13 分钟)AI 评分: 92 🌟🌟🌟🌟🌟
专为向量搜索而生

本文详细介绍了专用向量数据库相对于通用型数据库在向量搜索任务中的优势。重点介绍了高维向量数据带来的挑战和存储需求。文章强调了向量作为数据转换的特性。由此会产生数据更新和索引维护等问题。还讨论了向量数据库中的架构权衡,例如 ACID 和 BASE 原则之间的选择,以及 BASE 架构如何实现高可用性和可扩展性。此外,文章探讨了向量索引的复杂性,特别是 HNSW 索引的实现和优化,以及分段和可过滤索引如何提高性能。最后,它强调了向量搜索在发现和推荐等领域的潜力,超越了传统的 RAG(检索增强生成)应用。

11

告别生硬翻译腔:构建 AI 驱动的多轮评审润色流程

Gino Notesginonotes.com02-153310 字 (约 14 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
告别生硬翻译腔:构建 AI 驱动的多轮评审润色流程

本文详细介绍了作者如何使用 AI 工具,特别是 Dify 平台,构建一个多轮评审润色 Workflow,旨在解决英文技术文章翻译成中文时常见的“翻译腔”问题。该 Workflow 包含内容抓取、初步改写、多轮评审(从语言流畅性、内容准确性和风格一致性三个维度)、综合改进和最后润色等关键阶段。文章深入探讨了 Prompt Engineering 的设计思路,并分享了模型选择的经验,例如使用 Google Gemini 2.0 Flash 进行主要改写和润色任务,以及 Qwen-max-latest 和 OpenAI o3-mini 分别进行语言和内容评审。实验结果表明,该 Workflow 能够有效提升翻译质量,使译文更流畅、地道、自然,并符合中文阅读习惯。此外,作者还分享了后续的排版、封面生成和发布流程,强调了 AI 在内容创作领域的巨大潜力以及工具组合的强大。

12

使用 ChatGPT 新功能 Deep Research 后,谈谈它会带来的影响

Founder Parkmp.weixin.qq.com02-209826 字 (约 40 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
使用 ChatGPT 新功能 Deep Research 后,谈谈它会带来的影响

文章深入探讨了 OpenAI 新推出的 Deep Research 功能。该功能通过 AI 在互联网上进行多步骤研究,旨在降低信息整合成本,快速生成研究报告。文章通过作者自身使用案例,展示了 Deep Research 在特定领域的应用价值,如采访准备和医疗信息搜索。同时也指出了其局限性,包括对非公开信息的无力、可能产生的错误信息误导,以及对信息质量的依赖。作者认为 Deep Research 在信息整合速度和成本上具有优势,但依赖于公开信息。文章进一步分析了 Deep Research 对知识价值、信息保密性以及未来信息生态的影响,认为 AI 工具在加剧信息泛滥的同时,也可能成为筛选有效信息的关键手段。文章预测,在未来,信息保密性将更具价值。

13

Perplexity 免费推出 Deep Research:性能超过 R1、o3-mini 等,CEO:感谢 DeepSeek

量子位qbitai.com02-151916 字 (约 8 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
Perplexity 免费推出 Deep Research:性能超过 R1、o3-mini 等,CEO:感谢 DeepSeek

文章介绍了 Perplexity 新推出的免费功能 Deep Research,该功能通过查找海量资料和专家级分析,为用户提供有深度的研究报告。Deep Research 在 Humanity's Last Exam 和 SimpleQA 两项基准测试中表现出色,速度也很快,平均 3 分钟内完成研究任务。Perplexity CEO 公开致谢 DeepSeek,因其开源、便宜且快速。文章还展示了 Deep Research 在金融、市场营销、技术等领域的应用案例,并对比了其与普通搜索功能的区别。此外,文章还提到了网友对 Perplexity 新功能命名 “Deep Research” 的质疑,以及 CEO 对 Perplexity 优势的回应和未来功能的预告。

14

「人均 DeepSeek」之后,AI 应用还能怎么做?

极客公园mp.weixin.qq.com02-1717487 字 (约 70 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
「人均 DeepSeek」之后,AI 应用还能怎么做?

文章深入探讨了 DeepSeek R1 模型开源后在 AI 领域引发的巨大影响。该模型以其卓越的性能,尤其是在文笔和逻辑推理方面的突出表现,以及开源策略,颠覆了行业传统认知。与会专家分析了 DeepSeek R1 的技术创新,如 GRPO 算法在合成高质量数据方面的应用,及其对降低 AI 应用门槛、加速 AI 原生产品设计的影响。此外,文章还讨论了开源模式对 AI 生态的促进作用,以及国内团队通过优化软件提升训练效率以应对算力限制 的策略。文章还展望了 AI 在娱乐领域的应用前景,特别是在视频生成方面,并探讨了 chatbot 等产品形态的未来演进方向,以及 AI 原生产品经理的重要性。

15

宇树王兴兴:足够专注,没有问题解决不了 |【经纬低调分享】

经纬创投mp.weixin.qq.com02-188741 字 (约 35 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
宇树王兴兴:足够专注,没有问题解决不了 |【经纬低调分享】

本文是对宇树科技创始人王兴兴的访谈,讲述了他从技术极客到行业新锐的转变。王兴兴并非传统意义上的学霸,但他凭借对技术的热爱和专注,克服了资源和学历上的限制,成功开发出低成本、高性能的机器狗和人形机器人。访谈中,他分享了宇树科技在电机、3D 激光雷达等核心部件上的自研经验,以及在技术选型、产品迭代和成本控制方面的策略,例如将机器狗的技术和硬件复用到人形机器人上,实现快速迭代和低成本开发。他强调了专注、快速迭代和持续学习的重要性,认为这些是宇树科技保持领先的关键。此外,他还分享了自己独特的学习方法和对商业的理解,认为做生意要理性,即使是小众市场也要赚取全部利润,要顺势而为。

16

对谈张亚勤:我预演中的 AGI 地图

腾讯科技mp.weixin.qq.com02-1712920 字 (约 52 分钟)AI 评分: 92 🌟🌟🌟🌟🌟
对谈张亚勤:我预演中的 AGI 地图

文章是对清华大学智能产业研究院院长张亚勤院士的访谈,主要探讨了他对 AGI 未来发展路径的构想。张亚勤院士认为,AGI 的实现将分阶段进行,依次是信息智能、物理智能和生物智能。他预测信息智能将在 5 年内达到 AGI 水平,物理智能如人形机器人大约需要 10 年,而生物智能则需要 15 到 20 年。访谈中,张亚勤院士还分享了他对自动驾驶、具身智能等领域的看法,强调了大模型在解决数据、泛化性和模型整合问题上的突破性作用,从而加速自动驾驶和具身智能等技术的发展。此外,他还大胆预测 AGI 将深刻影响人类社会,拓展人类大脑,延长寿命,甚至可能催生新的物种,并对就业结构、教育模式等方面可能发生的变化进行了展望。

17

与 AI 协作 2000 小时后:发现人类对大模型能力的挖掘,还不足 10%

腾讯研究院mp.weixin.qq.com02-199263 字 (约 38 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
与 AI 协作 2000 小时后:发现人类对大模型能力的挖掘,还不足 10%

本文是腾讯青腾 AI & 全球化项目经理余一在腾讯科技向善创新节上的演讲稿。她分享了自己与 AI 协作 2000 小时的经验,通过多个实际案例,展示了 AI 在情绪疏导、决策辅助和工作效率提升等方面的应用。她强调,与 AI 协作的关键在于打破将 AI 视为单纯工具和软件的固有思维,而是将其视为能够理解和模拟人类的智能伙伴。同时,她还提出了“非完美思维”和“AI 与人的协作”等新视角,认为现有的大模型能力仍有巨大的挖掘潜力。最后,她分享了与 AI 协作的七种武器,鼓励大家摆正心态,勇于探索 AI 协作的新模式,并重新理解陪伴和领导力。

18

深度研究的缔造者

Latent Spacelatent.space02-1813640 字 (约 55 分钟)AI 评分: 93 🌟🌟🌟🌟🌟
深度研究的缔造者

本文深入探讨了“深度研究”代理的概念,这些代理利用大语言模型 (LLMs) 通过从多个来源收集信息并生成深入的报告来自动化复杂的研究任务。文章分析了来自 OpenAI 和 Google 等公司的深度研究产品,讨论了它们的技术实现,包括定制化模型(o3、Gemini 1.5 Flash)和工具调用。此外,本文还探讨了用户体验,强调了异步用户体验的挑战以及可编辑思维链的优势。同时,本文也探讨了评估这些深度研究工具的质量,以及它们在加速知识工作和发现新见解方面的潜力。

19

以史为鉴,未雨绸缪:身处“大模型掀起的 AI 浪潮中”的感悟和思考

阿里技术mp.weixin.qq.com02-1812729 字 (约 51 分钟)AI 评分: 91 🌟🌟🌟🌟🌟
以史为鉴,未雨绸缪:身处“大模型掀起的 AI 浪潮中”的感悟和思考

本文作者以时间为轴,从 AI 技术发展史的视角切入,由浅入深地探讨了大模型的技术原理和实践案例,对大模型技术发展和应用前景持乐观态度,并对技术从业者如何应对 AI 浪潮提出了建议。首先,作者分享了自己从机器学习到深度学习的技术转型经历,借此引出对大模型时代技术革新的思考。接着,文章从全球、国内和身边三个视角,阐述了大模型掀起的 AI 浪潮。随后,详细介绍了大模型的基础知识,包括大模型的定义、大模型与小模型的区别、大模型的缩放法则和涌现性、大模型与 AI 的关系等。同时,对百模大战的现状和原因进行了分析,并对国内外大模型的发展水平进行了对比。此外,文章还深入探讨了大模型的理论知识,包括语言模型的发展历程、通用大模型的预训练技术和主流大模型结构、领域大模型的高效微调技术、RAG 与 Fine-tuning 的选择、人类对齐的 RLHF 技术分解、提示学习以及模型压缩等。最后,作者结合 AICON 会议的参会经历,介绍了大模型在搜广推等领域的实践案例,并预测生成式 AI 和兴趣簇推荐将是该领域的重要突破方向。整体而言,本文内容全面、深入浅出,适合对大模型感兴趣的读者阅读。