精选推送

BestBlogs.dev 精选文章第 54 期

大家好，欢迎阅读 BestBlogs.dev 第 54 期 AI 精选。

本周，国内大厂在多模态模型领域展开了密集的技术发布与开源行动，从图像编辑到音视频同步生成，展现了强大的创新实力。与此同时，关于 AI 应用的讨论也走向深水区，从电商直播、智能研发到产品设计哲学，行业正在积极探索 AI 深度融合的有效路径。

🚀 模型与研究亮点

🎨 阿里发布多模态模型 Qwen-VLo ，具备强大的图像理解与渐进式生成能力，支持风格替换、素材增删等多种精细化编辑功能。
🔊 可灵 AI 推出 Kling-Foley 模型，能够为视频自动生成与之内容和时间高度同步的立体声音频，大幅降低后期制作门槛。
📖 百度正式开源文心大模型 4.5 系列，一次性推出 10 款不同规模的模型，并提供开箱即用的工具链以降低部署门槛。
🏆 智谱开源仅 9B 参数的视觉语言模型 GLM-4.1V-9B-Thinking ，通过引入思维链推理，在多项评测中表现超越了参数量数倍于自己的模型。
🖼️ 阿里国际开源统一多模态模型 Ovis-U1 ，在 3B 参数规模下，于文生图和图像编辑等多个基准测试中取得了领先结果。
🧠 一篇深度长文探讨 LLM 的认知跃迁，从 Andrej Karpathy 提出的认知核心概念出发，阐述模型如何从死记硬背进化到活学活用。

🛠️ 开发与工具精粹

🔗 LangChain 博客深入阐述上下文工程，将其比作 AI 智能体的内存管理，并详细介绍了写入、选择、压缩和隔离四大核心策略。
🗣️ 淘宝直播团队分享了运用 LLM 优化数字人直播文案的技术实践，通过语义改写与风格学习，有效提升了文案的口语化与真实感。
🎤 淘宝直播团队进一步揭示了其 TTS 语音合成技术，从数据处理到模型迭代，展示了如何为数字人打造拟人化的韵律与情感。
🧑‍💻 阿里巴巴分享了其在 AI Coding 领域的探索历程，从代码补全等辅助工具，到构建通用 Agent 模式所面临的挑战与实践经验。
💾 一篇技术长文系统性解析了向量数据库，内容覆盖从数据向量化、核心索引技术到在 RAG 等场景中的关键应用。
⚙️ 一份详尽的 Gemini-CLI 上手教程，不仅包含安装配置指南，还深入分析了其核心优势以及在实际使用中可能遇到的问题。

💡 产品与设计洞见

👕 Google 推出 AI 虚拟试穿应用 Doppl ，用户上传照片即可生成动态试穿视频，极大提升了在线购物的试衣体验。
🎨 一份对多功能 AI 创作平台星流 Agent 的超全测评，展示了其如何通过情绪板等功能，高效完成从品牌 VI 到视频、3D 模型等全流程创作。
💬 一位资深产品设计师提出，通用的聊天界面是懒惰的设计产物，他认为混合工作空间才是 AI 赋能工作流的更优解。
🎓 阿里夸克的高考志愿填报服务，是 AI Agent 深度落地真实世界的样本，它通过高可信知识库与人机协作，在高风险场景下提供了可靠辅助。
🚀 投资人与创业者共同探讨 AI 创业的主线，认为竞争关键已从模型本身转向交付能力，垂直领域的 Agent 蕴藏着大量机会。
💰 真格基金合伙人戴雨森分享观点，认为 AI 正在回归产品力驱动的时代，能提供魔法般体验的产品，正在创造前所未有的商业增长。

📰 资讯与报告前瞻

📊 硅谷财富管理巨头 Iconiq Capital 发布 AI 现状报告，指出 AI 正从概念转向实战，并揭示了企业在 AI 选型、支出及人才招聘上的真实数据。
📈 Menlo Ventures 的消费级 AI 报告显示，尽管目前仅有 3% 的用户愿意付费，但父母群体正成为 AI 最忠实的用户，预示着巨大的市场潜力。
🤖 Cloudflare 的数据显示，AI 爬虫带来的引流效果远低于其内容抓取量，这为内容提供商带来了新的挑战与思考。
🧠 一场深度对谈探讨了如何将 AI 从工具“炼”成个性化的数字分身，并将其应用于个人成长和企业工作流的重塑。
❤️ 领英创始人里德·霍夫曼认为，AI 应成为关系的智能体，其设计目标应是帮助而非取代人际连接，要警惕诱惑人沉迷的设计模式。
✨ 一位身处一线的从业者分享了 2025 上半年 AI 带给他的 9 个启发时刻，内容涵盖产品护城河、情绪价值与创业回归用户需求等多个方面。

希望本期的精选内容能为您带来启发。我们下周再见！

立即订阅

1拯救 P 图废柴，阿里上新多模态模型 Qwen-VLo！人人免费可玩
2音画同步，AI 视频也能有完美「原声音」，可灵 AI 刚上线的！｜机器之心
3百度文心大模型 4.5 系列正式开源同步开放 API 服务
49B"小"模型干了票"大"的：性能超 8 倍参数模型，拿下 23 项 SOTA | 智谱开源
5完全开源！阿里国际发布：Ovis-U1 统一的多模态理解与生成模型
6LLM 认知跃迁：从“死记硬背”到“活学活用”
7上下文工程(Context Engineering)
8淘宝直播数字人：LLM 文案生成技术
9淘宝直播数字人：TTS 语音合成技术
10从 Copilot 到通用 Agent ：阿里在 AI Coding 上的应用和挑战
11一文读懂向量数据库，原理到应用全解析！
123 万 Star！谷歌免费 AI 编程工具 Gemini-CLI 到底香在哪？附详细安装教程
13谷歌 AI 试穿神器真神了！上传照片秒出 OOTD，视频效果和照镜子没区别
14星流 Agent，10 分钟做了我一周的工作量！超全测评来了。
15Chatbot，是一种懒惰的产物
16夸克生成千万份志愿报告背后：一个 Agent 应用“深度落地”的真实样本
17下一站 AI 创业主线：别卷模型了，把这件事干成才重要
18真格基金戴雨森：从「没必要付费」到「非用不可」，AI 正在冲击人类历史上最快的增长纪录
19比女皇报告还炸裂！67 页 AI 深度调研刷屏，全球 LLM 大决战真正开始
202025 年过去一半了， AI 带给我的 9 个 Aha Moments
212025 ToC AI 产品：仅有 3%用户愿意付费，29%的父母每天使用
22推荐流量崩塌前奏：解析 AI 爬虫对内容提供商的影响
23不止是工具：如何把 AI “炼”成另一个不完美的你？｜对谈余一
24如何设计不诱惑人的 AI？|【经纬低调分享】

拯救 P 图废柴，阿里上新多模态模型 Qwen-VLo！人人免费可玩

量子位

qbitai.com

06-28

2167 字 · 约 9 分钟

文章介绍了阿里新发布的多模态模型 Qwen-VLo，该模型在图像理解和生成能力上有显著提升，支持多种图像编辑功能，如风格替换、素材增删和添加文字等。Qwen-VLo 采用独特的渐进式生成方式，从上到下逐步构建图像并优化细节，确保最终结果和谐一致。模型支持任意分辨率和长宽比，并具备增强的细节捕捉能力。文章通过多个实测案例展示了模型的能力，包括连续生成、图像编辑和文本识别等，同时也揭示了模型对流行文化梗的理解局限。Qwen-VLo 特别适用于需要精细控制的任务，如广告设计和漫画分镜。目前模型免费开放使用。

音画同步，AI 视频也能有完美「原声音」，可灵 AI 刚上线的！｜机器之心

机器之心

jiqizhixin.com

06-27

2996 字 · 约 12 分钟

文章介绍了可灵 AI 最新推出的 Kling-Foley 模型，该模型能够通过大模型自动生成与视频内容同步的高质量立体声音频，包括音效和背景音乐。Kling-Foley 支持基于视频内容与可选文本提示生成语义相关、时间同步的音频，具备立体声渲染能力。文章详细解析了模型的技术架构，包括采用流匹配目标训练的多模态控制模型、视觉语义表示模块和音视频同步模块等创新设计。可灵 AI 从无到有构建了包含 1 亿+样本的多模态数据集和覆盖九大类声音事件场景的 Kling-Audio-Eval 基准数据集。目前，该技术已在可灵 AI 平台实现实用化，支持文生音效和视频音效生成，大幅降低了音频后期制作成本。

百度文心大模型 4.5 系列正式开源同步开放 API 服务

量子位

qbitai.com

06-30

1295 字 · 约 6 分钟

百度宣布文心大模型 4.5 系列正式开源，一次性推出 10 款不同参数规模的模型，从 47B 参数的混合专家（MoE）模型到 0.3B 稠密型模型，覆盖文本和多模态任务。这些模型采用 Apache 2.0 协议开源，权重与代码完全开放，并提供 API 服务。文心大模型 4.5 系列在多个主流基准测试中表现优异，尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果突出，性能超越 DeepSeek-V3、Qwen3 等竞品。百度还提供了开箱即用的工具链，包括 ERNIEKit 和 FastDeploy，以降低模型的后训练和部署门槛。特别值得注意的是，文心大模型 4.5 系列采用了创新的多模态异构模型结构，模型 FLOPs 利用率达到 47%，并实现了框架层与模型层的'双层开源'。

9B"小"模型干了票"大"的：性能超 8 倍参数模型，拿下 23 项 SOTA | 智谱开源

量子位

qbitai.com

07-02

3480 字 · 约 14 分钟

9B"小"模型干了票"大"的：性能超 8 倍参数模型，拿下 23 项 SOTA | 智谱开源

智谱发布的 GLM-4.1V-9B-Thinking 是一个仅 9B 参数的视觉语言模型，在 28 项评测中拿下 23 个 SOTA，性能甚至超越 8 倍参数的 Qwen-2.5-VL-72B。该模型通过引入思维链(CoT)推理机制和课程采样强化学习(RLCS)实现了强大的推理能力。在获得浦东创投集团和张江集团 10 亿元投资的背景下，文章展示了模型在艺术分析、数学解题、时间识别等实际任务中的表现。详细介绍了其创新架构设计（采用三维卷积的视觉编码器、多层感知机适配器、语言解码器）和三阶段训练过程（预训练、监督微调、RLCS）。模型已开源并提供 API 服务，包括 Github、ModelScope 和 Hugging Face 等多个平台。

BestBlogs.dev 精选文章 第 54 期

🚀 模型与研究亮点

🛠️ 开发与工具精粹

💡 产品与设计洞见

📰 资讯与报告前瞻

目录

BestBlogs.dev 精选文章第 54 期