BestBlogs.dev 精选文章第 23 期

👋 亲爱的读者朋友们，欢迎阅读本期 BestBlogs.dev 的精选文章推送！

🚀 本周，AI 领域迎来多项重磅突破和创新。Anthropic 发布的 Claude 3.5 展现了 AI 操控计算机的突破性能力，目前处于公开 beta 测试阶段。智谱 AI 开源的 CogView3-Plus 在文生图领域实现重大进展，不仅性能超越 SDXL，推理速度更提升至原来的 10 倍。同时，智谱 AI 还开源了端到端语音模型 GLM-4-Voice，支持中英文实时语音对话，展示了国内 AI 企业的研发实力。在开发工具方面，GitHub Copilot 引入多模型选择策略，支持主流大模型协同开发；微软开源的 OmniParser 则大大简化了 AI 智能体的开发流程。产品创新方面，OpenAI 为 ChatGPT 添加实时搜索能力，Ideogram 推出的 AI 画板工具 Canvas 带来全新的创作体验。让我们一起探索这些激动人心的 AI 创新！

💫 本周亮点

Anthropic 发布 Claude 3.5，实现 AI 操控计算机的突破性进展，进入公开 beta 测试阶段
Stable Diffusion 3.5 Large 登陆 Diffusers，提供 8B 参数大型模型和时间步长蒸馏模型
智谱 AI 开源 CogView3-Plus 文生图模型，引入 DiT 框架，性能超越 SDXL，推理速度提升 10 倍
智谱 AI 开源 GLM-4-Voice 语音模型，支持中英文实时对话，具备流式推理能力
GitHub Copilot 集成 Claude 3.5、Gemini 1.5 Pro 和 o1 模型，提供更丰富的 AI 编程助手选择
微软开源 OmniParser 工具，基于大模型实现 UI 解析，助力智能体开发
OpenAI 为 ChatGPT 添加实时搜索功能，逐步向所有用户开放，提供更及时的信息响应
Ideogram 推出 Canvas 工具，创新性地支持魔法填充和无限扩图功能
Meta 发布新一代 AI 硬件设计，包括 Catalina 机架等基础设施创新
NotebookLM 创新性地改变知识工作方式，展现 AI 辅助工具的未来发展方向

想深入了解这些精彩的 AI 发展？点击阅读原文，探索更多激动人心的 AI 创新！

立即订阅

1一夜之间，大模型像人一样操控电脑了！Claude 3.5 重磅升级，抢先 OpenAI
2Diffusers 欢迎 Stable Diffusion 3.5 Large
3智谱开源新一代文生图模型 CogView3-Plus
4GLM-4-Voice，智谱开源版“Her”来了！
5OpenAI o1 模型的前世今生
6神秘模型"小熊猫"一夜刷屏：排名超 Flux、Midjourney
7语言模型微调的简要总结
8推动音频生成的前沿
9开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至 3s
10斯坦福开源学术研究神器 STORM 再进化，AI 智能体像人一样进行圆桌讨论
11田渊栋团队新作祭出 Agent-as-a-Judge！AI 智能体自我审判，成本暴跌 97%
12无需训练即可创建数字人，字节 PersonaTalk 视频口型编辑超 SOTA
13一篇文章系统看懂大模型
14Cursor：如何构建 AI Coding 最佳实践？
15GitHub Copilot 多模型选择：Anthropic Claude 3.5 Sonnet、Google Gemini 1.5 Pro 和 OpenAI o1-预览版
16如何写好提示词？
17专家支持案例研究：使用 LLM 作为评估工具增强 RAG 应用
18在 Cloudflare 开发者平台上构建分布式向量数据库 Vectorize
19RAG 的 5 种切分策略 [译]
20大模型在华为推荐场景中的探索和应用
21探索 LLM 推理全阶段的 JSON 格式输出限制方法
22深入 RAG：知识密集型 NLP 任务的解决方案
23阿里云 AI 搜索 RAG 大模型优化实践
24从架构角度认识 AI：为架构师解读机器学习与生成增强技术
25控制电脑手机的智能体人人都能造，微软开源 OmniParser
26推出 AI 驱动的 BigQuery 数据准备
27先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了
28刚刚！ChatGPT 正式成为 AI 搜索，免费可用
29对话 Kyth：小宇宙 CEO 如何理解 AI 播客？
30LangChain 创始人万字科普：手把手教你设计 Agent 用户交互
31融资 1.35 亿，估值超 10 亿美元的法律 AI 公司，帮 1000 家律所追回了 15 亿赔偿金
32魔法填充+无限扩图，Ideogram 推出 AI 画板工具 Canvas
33与生成式 AI 的 6 种对话类型
34AI 创新设计：捏合总结的实践与思考
35吴恩达来信：如何快速获取 AI 产品的用户反馈
36喝点 VC｜红杉资本对话 Snowflake CEO：AI 的核心问题在于如何更有效、更灵活地转换数据
37Meta 的开放人工智能硬件愿景
38AI 时代，哪种人更被需要？
39喝点 VC｜红点创投对话 HeyGen 创始人，谈 TikTok 的 GenAI 困境及通往互动虚拟形象的道路
40构建硅基智能 - 与 Dropbox 的德鲁·休斯顿
41NotebookLM 的诞生
42GPT-4o、NotebookLM 带来的 AI 语音新变化，声网们是怎么想的？
43ShowMeAI 周刊 No.9 | 最有讨论度的 10 个 AI 话题：问问小宇宙，有挂，赵纯想，字节实习生…
44上周 AI #293 - 苹果 AI 功能，GitHub 多模型 Copilot，Anthropic 的计算机交互 AI
4510 月盘点：AI 行业大事记

一夜之间，大模型像人一样操控电脑了！Claude 3.5 重磅升级，抢先 OpenAI

机器之心

jiqizhixin.com

10-23

4102 字 · 约 17 分钟

一夜之间，大模型像人一样操控电脑了！Claude 3.5 重磅升级，抢先 OpenAI

Anthropic 最近发布了 Claude 3.5 模型的重大更新，包括升级版的 Claude 3.5 Sonnet 和一款新模型 Claude 3.5 Haiku。Claude 3.5 Sonnet 在代码能力、多模态交互等方面有显著提升，最引人注目的是其新增的“计算机使用”能力，能够像人类一样操控计算机，执行移动光标、点击和输入等操作。这一功能目前处于公开 beta 测试阶段，主要面向开发者收集反馈。尽管该功能仍存在一些错误和局限性，但其潜力巨大，能够解锁大量当前 AI 助手无法实现的应用。此外，Claude 3.5 Sonnet 在性能上优于 OpenAI 的 o1-mini 模型，并在多个行业基准测试中表现出色。Anthropic 还强调了在开发过程中对安全性的重视，确保新功能在现有安全标准下运行。未来，随着技术的进一步改进，Claude 3.5 Sonnet 有望在更多领域实现广泛应用。

Diffusers 欢迎 Stable Diffusion 3.5 Large

Hugging Face Blog

huggingface.co

10-22

1018 字 · 约 5 分钟

来自 Hugging Face 博客的文章宣布了 Stable Diffusion 3.5 大型的发布，这是之前 Stable Diffusion 3 模型的改进版本。新模型可在 Hugging Face Hub 上获取，并可通过 Diffusers 库使用。发布包括两个检查点：一个 8B 参数的大型模型和一个 8B 时间步长蒸馏模型，后者支持少步推理。文章重点介绍了 Stable Diffusion 3.5 大型的架构变化，例如引入了 QK 归一化和双重注意力层，这些是训练大型变换器模型的标准做法。详细说明了如何使用 Stable Diffusion 3.5 与 Diffusers，包括安装、模型加载和推理。文章还涵盖了使用时间步长蒸馏模型进行更快的图像生成以及应用量化技术以优化内存使用。此外，还讨论了使用量化技术在消费级 GPU 卡上微调大型模型（如 Stable Diffusion 3.5 大型）的方法。

BestBlogs.dev 精选文章 第 23 期

目录

BestBlogs.dev 精选文章第 23 期