跳转到主要内容
精选推送

BestBlogs.dev 精选文章 第 23 期

👋 亲爱的读者朋友们,欢迎阅读本期 BestBlogs.dev 的精选文章推送!

🚀 本周,AI 领域迎来多项重磅突破和创新。Anthropic 发布的 Claude 3.5 展现了 AI 操控计算机的突破性能力,目前处于公开 beta 测试阶段。智谱 AI 开源的 CogView3-Plus 在文生图领域实现重大进展,不仅性能超越 SDXL,推理速度更提升至原来的 10 倍。同时,智谱 AI 还开源了端到端语音模型 GLM-4-Voice,支持中英文实时语音对话,展示了国内 AI 企业的研发实力。在开发工具方面,GitHub Copilot 引入多模型选择策略,支持主流大模型协同开发;微软开源的 OmniParser 则大大简化了 AI 智能体的开发流程。产品创新方面,OpenAI 为 ChatGPT 添加实时搜索能力,Ideogram 推出的 AI 画板工具 Canvas 带来全新的创作体验。让我们一起探索这些激动人心的 AI 创新!

💫 本周亮点

  • Anthropic 发布 Claude 3.5,实现 AI 操控计算机的突破性进展,进入公开 beta 测试阶段
  • Stable Diffusion 3.5 Large 登陆 Diffusers,提供 8B 参数大型模型和时间步长蒸馏模型
  • 智谱 AI 开源 CogView3-Plus 文生图模型,引入 DiT 框架,性能超越 SDXL,推理速度提升 10 倍
  • 智谱 AI 开源 GLM-4-Voice 语音模型,支持中英文实时对话,具备流式推理能力
  • GitHub Copilot 集成 Claude 3.5、Gemini 1.5 Pro 和 o1 模型,提供更丰富的 AI 编程助手选择
  • 微软开源 OmniParser 工具,基于大模型实现 UI 解析,助力智能体开发
  • OpenAI 为 ChatGPT 添加实时搜索功能,逐步向所有用户开放,提供更及时的信息响应
  • Ideogram 推出 Canvas 工具,创新性地支持魔法填充和无限扩图功能
  • Meta 发布新一代 AI 硬件设计,包括 Catalina 机架等基础设施创新
  • NotebookLM 创新性地改变知识工作方式,展现 AI 辅助工具的未来发展方向

想深入了解这些精彩的 AI 发展?点击阅读原文,探索更多激动人心的 AI 创新!

机器之心
jiqizhixin.com
10-23
4102 字 · 约 17 分钟
94
一夜之间,大模型像人一样操控电脑了!Claude 3.5 重磅升级,抢先 OpenAI

Anthropic 最近发布了 Claude 3.5 模型的重大更新,包括升级版的 Claude 3.5 Sonnet 和一款新模型 Claude 3.5 Haiku。Claude 3.5 Sonnet 在代码能力、多模态交互等方面有显著提升,最引人注目的是其新增的“计算机使用”能力,能够像人类一样操控计算机,执行移动光标、点击和输入等操作。这一功能目前处于公开 beta 测试阶段,主要面向开发者收集反馈。尽管该功能仍存在一些错误和局限性,但其潜力巨大,能够解锁大量当前 AI 助手无法实现的应用。此外,Claude 3.5 Sonnet 在性能上优于 OpenAI 的 o1-mini 模型,并在多个行业基准测试中表现出色。Anthropic 还强调了在开发过程中对安全性的重视,确保新功能在现有安全标准下运行。未来,随着技术的进一步改进,Claude 3.5 Sonnet 有望在更多领域实现广泛应用。

Hugging Face Blog
huggingface.co
10-22
1018 字 · 约 5 分钟
94
Diffusers 欢迎 Stable Diffusion 3.5 Large

来自 Hugging Face 博客的文章宣布了 Stable Diffusion 3.5 大型 的发布,这是之前 Stable Diffusion 3 模型的改进版本。新模型可在 Hugging Face Hub 上获取,并可通过 Diffusers 库使用。发布包括两个检查点:一个 8B 参数的大型模型和一个 8B 时间步长蒸馏模型,后者支持少步推理。文章重点介绍了 Stable Diffusion 3.5 大型 的架构变化,例如引入了 QK 归一化 和 双重注意力层,这些是训练大型变换器模型的标准做法。详细说明了如何使用 Stable Diffusion 3.5 与 Diffusers,包括安装、模型加载和推理。文章还涵盖了使用 时间步长蒸馏模型 进行更快的图像生成以及应用量化技术以优化内存使用。此外,还讨论了使用量化技术在消费级 GPU 卡上微调大型模型(如 Stable Diffusion 3.5 大型)的方法。

智谱
mp.weixin.qq.com
10-14
738 字 · 约 3 分钟
91
智谱开源新一代文生图模型 CogView3-Plus

智谱在其官方微信公众号上宣布开源了新一代文生图模型 CogView3-Plus,该模型在 CogView3 的基础上进行了多方面的优化和升级。CogView3 是一个基于级联扩散的 text2img 模型,包含三个阶段:首先生成 512x512 低分辨率图像,然后通过中继扩散过程生成 1024x1024 图像,最后生成 2048×2048 高分辨率图像。CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时推理时间仅为 SDXL 的 1/10。CogView-3-Plus 进一步引入了 DiT 框架,采用 Zero-SNR 扩散噪声调度和文本-图像联合注意力机制,有效降低了训练和推理成本。该模型支持 512 至 2048 像素区间内分辨率的灵活生成,并在各类评测中表现出色,与最领先的 text2img 模型持平。此外,CogView3-Plus 系列模型已上线智谱清言平台,用户可以在该平台上体验其图像生成和编辑功能。智谱还开源了 CogView3-Plus-3B 模型,并计划在 Diffusers 框架上搭建微调方案和适配 ControlNet。

魔搭ModelScope社区
mp.weixin.qq.com
10-25
1546 字 · 约 7 分钟
92
GLM-4-Voice,智谱开源版“Her”来了!

智谱 AI 最近推出了开源的端到端语音模型 GLM-4-Voice,该模型能够直接理解和生成中英文语音,支持实时语音对话。GLM-4-Voice 由三个主要部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder 和 GLM-4-Voice-9B。GLM-4-Voice-Tokenizer 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。GLM-4-Voice-Decoder 基于 CosyVoice 的 Flow Matching 模型结构训练,支持流式推理,将离散化的语音 token 转化为连续的语音输出。GLM-4-Voice-9B 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。研究团队设计了一套流式思考架构,支持高质量的语音对话,并根据用户的语音指令要求做出相应的声音变化,同时具备低延迟性。

大淘宝技术
mp.weixin.qq.com
10-30
15785 字 · 约 64 分钟
93
OpenAI o1 模型的前世今生

本文详细探讨了 OpenAI o1 模型的开发历程和性能表现,特别关注其在推理能力上的显著提升。文章首先通过科幻小说《最后的问题》引出人工智能 AC 的长时间思考模式,对比人类思维的 System 1 和 System 2,指出大语言模型(LLM)在处理复杂问题时存在的幻觉问题,尤其是数理推断方面的挑战。接着,文章介绍了 OpenAI o1 模型如何通过思维链(CoT)方法增强推理能力,特别是在 STEM 领域的优异表现。o1 模型在多项基准测试中超越了人类专家水平,尤其在推理和多模态任务上表现突出。然而,在文本生成和指令跟随任务上,o1 模型表现不佳。OpenAI 推出了两个版本的 o1,分别侧重于推理能力和处理速度。文章还详细讨论了 o1 模型在训练过程中借鉴 AlphaGo 的强化学习思路,包括 Self-Play 和蒙特卡洛搜索(MCTS),以及推理生成和奖励模型的优化方法。最后,文章通过实验验证了过程监督奖励模型(PRM)在复杂推理任务中优于结果监督奖励模型(ORM),并对 Google Deepmind 之前的工作提出了批评。

量子位
qbitai.com
10-29
1996 字 · 约 8 分钟
90
神秘模型"小熊猫"一夜刷屏:排名超 Flux、Midjourney

文章报道了一个名为“小熊猫”(red_panda)的神秘文生图模型在短时间内迅速崛起,其 ELO 得分比 Flux 1.1 Pro 高出 100 多,胜率高达 79%,每 7 秒就能生成一张图像。该模型在文生图竞技场中表现出色,直接超越了 Flux、Midjourney 等一众顶尖模型。文章详细描述了“小熊猫”的生成效果,并通过与其他模型的对比展示了其强大的性能。尽管“小熊猫”表现出色,但其具体来源和身份仍是一个谜,引发了广泛的猜测和讨论,包括可能是 Midjourney V7、OpenAI 的 DALL-E 4、Mistral AI 的新模型,甚至是来自中国厂商的模型。此外,文章还提到了一些有趣的细节,如模型的名称和 logo 带有浓厚的中国风格,以及一位工程师小哥因头像名称相似而被网友猜测为模型的开发者。最后,文章呼吁读者亲自体验并猜测“小熊猫”的真实身份。

Stack Overflow Blog
stackoverflow.blog
10-31
1345 字 · 约 6 分钟
91
语言模型微调的简要总结

文章深入探讨了大型语言模型(LLMs)微调技术的复杂性,强调了知识注入与对齐之间的区别。微调涉及进一步训练预训练模型,包括继续预训练、指令调优、监督微调(SFT)、人类反馈强化学习(RLHF)或直接偏好优化(DPO)等方法。这些技术的核心目标是向模型注入新知识,并使其输出风格或格式与特定要求对齐。文章强调了大规模指令调优的有效性,例如 FLAN 模型使用大量数据集高效解决广泛的下游任务。它还讨论了在 ChatGPT 引入后,对齐的关注点发生了转变,指出对齐可以通过较小的高质量数据集实现,如 LIMA 所示。文章进一步探讨了通过在小合成数据集上微调来模仿专有 LLMs(如 GPT-3.5/4)的现象。虽然这些模仿模型在有限的基准测试中表现良好,但在更广泛的评估中表现不佳,表明微调可以教授风格和格式,但不能教授更强大模型的广泛知识库。文章最后总结了关键要点,包括理解微调目标(对齐与知识注入)的重要性,以及评估微调效果的综合基准的必要性。它还提到了持续的研究,继续探索预训练和微调之间的界限,特别是在理解 LLM 何时开始学习新知识与仅学习风格或对齐方面。

Google DeepMind Blog
deepmind.google
10-30
976 字 · 约 4 分钟
91
推动音频生成的前沿

谷歌 DeepMind 的文章讨论了音频生成技术的最新进展,重点是创建与数字助手和 AI 工具更自然、更吸引人的互动。关键发展包括 SoundStorm 和 AudioLM 等模型,这些模型从各种输入生成高质量、自然的语音。这些技术为谷歌的多个产品提供支持,例如 Gemini Live 和 YouTube 的自动配音。两个新功能,NotebookLM 音频概览和 Illuminate,通过 AI 生成的对话使复杂内容更易于访问。最新模型可以在 TPU v5e 芯片上在不到 3 秒的时间内生成 2 分钟的对话,具有改进的自然度和声学质量。未来的方向包括增强表现力和探索与视频的集成。

量子位
qbitai.com
10-24
3997 字 · 约 16 分钟
92
开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至 3s

本文介绍了阿里巴巴 ModelScope 社区推出的一个开源数字人实时对话 Demo。该 Demo 支持用户自定义数字人形象,并提供语音输入和实时对话功能,首包延迟可低至 3 秒。项目采用模块化设计,各模块均可快速更换,适用于直播、新闻播报和聊天助手等多种应用场景。主要技术模块包括语音识别(ASR)、大语言模型(LLM)、文本转语音(TTS)和说话人生成(THG),分别选用了 FunASR、通义千问、GPT-SoVITS 和 MuseTalk 等先进开源技术。此外,项目还使用了 Gradio 5 实现流式视频输出,方便部署和快速构建交互式数字人应用。未来优化方向包括链路优化、端到端语音聊天和流式视频播放的改进。

机器之心
jiqizhixin.com
10-27
1581 字 · 约 7 分钟
90
斯坦福开源学术研究神器 STORM 再进化,AI 智能体像人一样进行圆桌讨论

斯坦福大学在今年 4 月推出开源工具 STORM,利用大语言模型(LLM)辅助编写类维基百科文章,支持快速生成详细的研究论文。近期,斯坦福团队推出升级版 Co-STORM,引入协作对话机制和轮次管理策略,实现 AI 智能体间的圆桌讨论。Co-STORM 包括 LLM 专家、主持人和人类用户三种智能体,通过动态更新的思维导图和提示生成问题或答案,显著提升学术研究的质量和效率。评估结果显示,Co-STORM 在报告质量和对话质量方面均优于基线模型,特别是在深度和新颖性方面表现突出。

新智元
mp.weixin.qq.com
10-27
2496 字 · 约 10 分钟
92
田渊栋团队新作祭出 Agent-as-a-Judge!AI 智能体自我审判,成本暴跌 97%

文章介绍了来自 Meta 和 KAUST 团队的一项最新研究,提出了“Agent-as-a-Judge”框架,旨在解决 AI 智能体评估决策路径的难题。传统的评估方法要么只关注结果,要么需要大量人工介入,而新框架通过让智能体自我评估,不仅减少了 97%的成本和时间,还能提供丰富的中间反馈。这一框架是“LLM-as-a-Judge”的有机延伸,通过融入智能体特性,为整个任务解决过程提供中间反馈。研究团队还提出了 DevAI 基准,包含 55 个真实的 AI 开发任务,带有详细的手动注释,用于验证新框架的有效性。实验结果表明,新框架在评估智能体系统时优于传统的“LLM-as-a-Judge”框架,特别是在任务依赖关系的情况下。此外,文章还讨论了现有代码生成基准测试的不足,并介绍了 DevAI 数据集,旨在解决当前基准测试中的问题。

机器之心
jiqizhixin.com
10-26
2462 字 · 约 10 分钟
91

在 AIGC 的热潮下,视频口型编辑技术成为了视频内容个性化与智能化的重要手段。字节跳动的 PersonaTalk 技术近期入选了 SIGGRAPH Asia 2024-Conference Track,该技术通过一个基于注意力机制的双阶段框架,实现了高质量的视频口型编辑,无需训练即可创建数字人。PersonaTalk 技术结合了定制化训练和 zero-shot 方案的优势,通过风格感知的动画生成模块和双分支并行的注意力模块,生成高质量的视频。实验结果显示,PersonaTalk 在唇动同步、视觉质量和个性化特征保留方面均优于其他 SOTA 方案,甚至在不需要额外训练和微调的情况下,表现优于学术界最新的定制化训练方案。该技术具有广泛的应用前景,包括视频翻译、虚拟教师、AIGC 创作等多个场景,为多领域的创新提供了新思路。

人人都是产品经理
woshipm.com
10-22
23459 字 · 约 94 分钟
92

本文详细介绍了大模型的基础概念、关键技术和应用场景,旨在帮助 AI 小白和产品经理系统化理解大模型。文章首先定义了大模型,如 GPT4.0,解释了其采用的 Transformer 架构和生成文本的能力。接着,文章深入探讨了大模型的关键技术,包括预训练、模型微调、提示词工程、模型蒸馏和模型剪枝,并阐述了 AI、机器学习、深度学习、NLP 等概念的关系。此外,文章还介绍了大模型的主要应用,如文本生成、对话系统、问答系统等,并讨论了 MOE 架构的优势。文章进一步详细描述了大模型生成文本的原理、分类、核心技术及开发步骤,涵盖了从文本生成到模型优化的全过程。最后,文章讨论了大模型训练和微调的关键要素,包括数据需求、训练成本、微调方式,以及影响大模型表现的主要因素和评估维度,并探讨了大模型的局限性及解决方案。

海外独角兽
mp.weixin.qq.com
10-31
24075 字 · 约 97 分钟
92
Cursor:如何构建 AI Coding 最佳实践?

Cursor 是一个基于大型语言模型(LLM)的集成开发环境(IDE),专注于 AI Coding 领域。文章详细介绍了 Cursor 的产品体验、模型训练、数据安全等细节,并探讨了 AI coding 和 AI Agent 的未来发展。Cursor 利用 Claude Sonnet 3.5 模型提升 coding 能力,并在 AI Coding UI/UX 上持续投入。团队正在试验 Shadow Space 产品概念,通过后台运行隐藏窗口进行 coding 任务。未来编程将是自然语言和代码共存,AI 将重塑编程体验,提高效率并保持程序员的创造力和控制力。此外,Cursor 通过 Tab 键实现了更智能的代码编辑体验,模型能够自动识别并建议下一处需要编辑的位置,减少了用户的操作负担。Cursor 还通过推测编辑、缓存预热和高级缓存机制等技术手段提高 AI Coding 产品的响应速度,并通过 RL 训练模型,预测用户偏好并优化建议生成,提升用户体验和模型性能。

The GitHub Blog
github.blog
10-29
583 字 · 约 3 分钟
91
GitHub Copilot 多模型选择:Anthropic Claude 3.5 Sonnet、Google Gemini 1.5 Pro 和 OpenAI o1-预览版

GitHub Copilot 是一款 AI 驱动的编码助手。它通过集成各种大型语言模型 (LLMs) 不断进化以增强其功能。最初与 OpenAI 的 Codex(GPT-3 的变体,经过编码微调)一起推出,Copilot 随后通过整合 GPT-3.5 和 GPT-4 扩展了其能力。最近的更新引入了多模型选择功能,允许开发者从 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 和 OpenAI 的 o1-预览版和 o1-迷你版中进行选择。这一举措体现了 GitHub 对开发者选择的重视,他们可以根据自身需求选择最合适的模型。新模型带来了不同的优势:Claude 3.5 Sonnet 擅长处理多步骤编码任务;Gemini 1.5 Pro 提供多模态处理和较大的上下文窗口;OpenAI 的 o1-预览版和 o1-迷你版增强了推理能力,以更好地理解代码约束和边界情况。这一多模型选择功能正在 Copilot 的各种功能中推出,包括 Copilot Chat、Workspace、多文件编辑等。此外,GitHub 还推出了 GitHub Spark,一个使用自然语言构建应用程序的 AI 原生工具,展示了平台支持 10 亿开发者的更广泛愿景。GitHub Spark 允许用户创建具有 AI 功能和外部数据集成的小型应用程序,而无需管理云资源,利用创意反馈循环进行迭代开发。

宝玉的分享
baoyu.io
10-23
190 字 · 约 1 分钟
91
如何写好提示词?

本文由宝玉分享,详细介绍了如何写好提示词的方法和技巧。作者通过录制 2 小时的教学视频和准备 110 页的 Slides,深入讲解了提示词编写的各个方面。视频内容精心准备,尽管作者自谦视频质量不高,但内容的深度和广度值得肯定。文章还提供了视频的同步发布链接,包括 YouTube 和 B 站,以及 Slides 的下载链接,方便读者深入学习和参考。

Hugging Face Blog
huggingface.co
10-28
2061 字 · 约 9 分钟
91

本文介绍了 Farmer.chat 的案例研究,这是一个由数字绿色与 CGIAR 合作开发并由 Hugging Face 通过其专家支持计划指导的 AI 驱动的聊天机器人。该聊天机器人旨在为小农和推广工作者提供个性化和可靠的农业建议,利用大量的农业研究论文知识库。系统架构包括一个知识库、一个 RAG 管道和一个由 GPT-4 驱动的面向用户的代理。文章强调了创建一个能够满足多种语言、地理、作物和使用案例的聊天机器人的挑战,强调了特定上下文和准确信息传播的重要性。为了评估 RAG 管道的表现,团队引入了一个 LLM 评估系统,该系统评估用户提示的清晰度、问题的类型、回答的查询百分比以及 RAG 响应的准确性。这种方法允许对聊天机器人的有效性和用户体验进行更细致的理解。文章还讨论了不同 LLMs(GPT-4-Turbo、Llama-3-70B、Gemini-1.5-Pro 和 Gemini-1.5-Flash)在回答农业查询时的忠实度和相关性的基准测试,最终选择了 Gemini-1.5-Flash,因为它在低未回答问题和高忠实度之间具有优越的平衡。结论强调了使用 LLMs 作为评估工具改进用户体验、优化知识库和为特定任务选择正确的 LLMs 的好处。Farmer.chat 已经为超过 20,000 名农民提供服务,回答了超过 340,000 个问题,并支持多种语言和作物。

The Cloudflare Blog
blog.cloudflare.com
10-22
4081 字 · 约 17 分钟
93
在 Cloudflare 开发者平台上构建分布式向量数据库 Vectorize

Cloudflare 在其开发者平台上开发了 Vectorize,一个分布式向量数据库,旨在通过 Cloudflare Workers 支持全栈 AI 驱动的应用程序。Vectorize 增强了嵌入查询,这些嵌入是文本和图像等数据的表示,使其更快、更容易、更具成本效益。本文深入探讨了 Vectorize 的架构,解释了它如何利用 Cloudflare 的全球网络、R2 对象存储和缓存来优化 I/O 操作。它还讨论了高级技术,如 IVF 用于搜索空间修剪和 PQ 用于向量压缩,确保即使在大数据集上也能进行高效的相似性搜索。此外,本文涵盖了最终一致性和快照版本控制,以在并发写入期间保持数据完整性,并实现了 WAL 以协调分布式写入并确保原子更新。

宝玉的分享
baoyu.io
10-22
1331 字 · 约 6 分钟
90
RAG 的 5 种切分策略 [译]

本文详细介绍了在 RAG 应用中,如何通过不同的切分策略来处理大文档,以提高检索效率和生成响应的质量。RAG 是一种结合了检索和生成技术的方法,通过将额外信息存储为向量,并与传入的查询匹配,最终将最相似的信息传递给大语言模型(LLM)。由于文档可能非常大,切分操作成为关键步骤,确保文本适应嵌入模型的输入大小,并提高检索步骤的效率和准确性。文章列举了五种切分策略:固定大小切分、语义切分、递归切分、基于文档结构的切分和基于 LLM 的切分。每种策略都有其优缺点,最终选择取决于内容的性质、嵌入模型的能力和计算资源等。

InfoQ 中文
mp.weixin.qq.com
10-23
8600 字 · 约 35 分钟
93
大模型在华为推荐场景中的探索和应用

华为在大模型推荐场景中的探索和应用,通过引入开放域知识和协同信息,突破传统推荐系统的局限,显著提升推荐效果。文章详细介绍了大模型在推荐系统中的多种应用,包括特征工程、编码器增强、直接打分排序和对话式交互。华为还探索了个性化检索和模糊校验方法,显著提升了大模型的加速效果和长序列理解能力。通过基于个性化参数微调的方法,华为成功将推荐系统领域的知识注入大模型,提升了模型的预测效果和训练效率,同时解决了推理时延高的问题。

阿里云开发者
mp.weixin.qq.com
10-30
3651 字 · 约 15 分钟
91

本文由阿里云开发者撰写,详细讨论了如何确保大型语言模型(LLMs)在推理过程中输出结构化的 JSON 格式。文章首先阐述了 JSON 结构化输出的重要性,特别是在提升数据处理自动化程度和系统互操作性方面的关键作用。接着,文章分析了 LLM 在推理过程中难以严格输出 JSON 格式的原因,指出 LLM 的预测和采样机制决定了其无法 100%按要求输出 JSON。为了解决这一问题,文章提出了前、中、后三阶段的优化策略:1. 推理前(Prompt Engineering):通过精心设计的提示词(prompt)来提高 JSON 输出的概率。2. 推理中(动态限制解码):在推理过程中,通过动态限制解码技术,确保 LLM 严格按照预定义的 JSON 模式输出,实现 100%的 JSON 格式输出。3. 推理后(后处理):在模型输出后,使用后处理技术(如 JSON Repair 库)校正 JSON 结构,进一步提高 JSON 输出的准确性。文章还介绍了 OpenAI 的 Structured Outputs 方法,并详细描述了动态限制解码法的实现过程,包括在本地部署模型和使用正则式限制输出格式。最后,文章总结了三种方法的优缺点,并展望了未来在更多场景中的应用。

大淘宝技术
mp.weixin.qq.com
10-23
5153 字 · 约 21 分钟
91
深入 RAG:知识密集型 NLP 任务的解决方案

在知识密集型任务日益增多的背景下,RAG 技术通过从外部记忆源中检索相关信息,显著提升了语言模型的生成能力。本文首先介绍了 RAG 的基本概念和工作原理,指出其通过检索器和生成器的结合,能够有效提高模型生成的精准性和相关性。接着,文章详细分析了 RAG 的应用场景,包括检索外部知识、检索上下文历史、检索上下文中的训练示例和检索工具相关信息,展示了 RAG 在解决数据隐私、实时数据处理和幻觉问题等方面的优势。然而,RAG 也存在一些限制和挑战,如依赖文本片段的检索、检索过程的限制因素以及可能引入的矛盾文档。文章进一步探讨了 RAG 在实际落地中的技术挑战,包括延迟问题、成本考虑、事实错误和幻觉、技术和优化挑战等。最后,文章总结了 RAG 的应用价值和未来发展方向,强调了其在降低 AI 应用门槛和提升效率方面的潜力。

InfoQ 中文
mp.weixin.qq.com
11-01
7192 字 · 约 29 分钟
92

阿里云高级算法专家欧明栋分享了阿里云在 RAG(检索增强生成)大模型优化方面的实践经验。文章详细介绍了阿里云如何通过文档结构化、大模型微调和 Agent 技术等手段,提升 RAG 的效果和性能。RAG 技术在解决大模型幻觉、信息更新不及时等问题上表现突出,尤其在知识库问答、网页搜索等领域。阿里云通过 Agent 技术拆解复杂问题,优化系统模块,包括数据层、离线服务、在线引擎等,显著提升了搜索和回答质量。此外,通过微调模型和引入 Agent 规划,阿里云在处理复杂问题和减少幻觉率方面取得了显著成果。文章还提到了 RAG 在电商、内容、企业知识库和教育搜题等场景中的实际应用,展示了其处理流程和优化策略。

InfoQ 中文
mp.weixin.qq.com
10-29
14280 字 · 约 58 分钟
92

本文旨在帮助架构师深入理解并有效应用机器学习(ML)和人工智能(AI)技术,特别是生成式人工智能(genAI)和大语言模型(LLM)。文章首先强调了在应用 LLM 之前定义成功标准的重要性,并介绍了提示工程和检索增强生成(RAG)作为提升 LLM 效果的关键步骤。向量数据库通过最近邻搜索帮助查找相关内容,增强 LLM 的上下文理解。接着,文章详细讨论了机器学习模型的基本原理,包括概率分布、语言模型、神经网络的矩阵乘法以及大语言模型的规模。生成式 AI 的概念和训练过程,以及 Hugging Face 等平台的作用也被深入探讨。此外,文章还介绍了机器学习模型的生命周期、自回归模型的运作机制、Token 的概念及其在模型中的应用,以及 Transformer 架构在语言模型中的重要性。在产品中集成 LLM 的策略方面,文章分析了使用商业 LLM 和自托管开源 LLM 的优缺点,以及如何比较不同 LLM 的性能和定义成功标准。检索增强生成(RAG)技术和微调技术在特定领域中的应用,以及向量数据库在最近邻搜索中的作用也被详细讨论。最后,文章通过对话形式探讨了 LLM 在自然语言处理中的应用、AI Copilot 与 AI Agent 的区别,以及人工智能的通用性和自主性问题。

机器之心
jiqizhixin.com
10-26
1845 字 · 约 8 分钟
91

文章详细介绍了微软最新开源的 OmniParser 工具,这是一个基于大模型的屏幕解析工具,旨在将用户界面(UI)截图转换为结构化的元素。OmniParser 的解析和理解 UI 的能力达到了当前最佳水平,甚至超越了 GPT-4V。通过解析 UI 截图,OmniParser 能够识别可交互的图标,并理解屏幕上各种元素的含义,从而将计划动作与屏幕上的相应区域准确关联。文章还展示了 OmniParser 在实际任务中的应用,如解析网页并执行特定操作,以及其在多个基准测试中的优异表现。OmniParser 的开发涉及创建专用数据集和微调检测与描述模型,使其能够稳健地应对不同操作系统和应用的交互界面。此外,OmniParser 可以作为各种视觉-语言模型(VLM)的插件,进一步提升 AI 控制计算机的能力。OmniParser 的开源性质使其具有广泛的应用潜力。

Google Cloud Blog
cloud.google.com
10-25
763 字 · 约 4 分钟
90
推出 AI 驱动的 BigQuery 数据准备

文章介绍了谷歌 BigQuery 中的一款 AI 驱动数据准备工具,旨在简化和简化将原始数据转换为可操作洞察的过程。该解决方案是 BigQuery 生态系统中 Gemini 的一部分,利用 AI 提供数据清洗、转换和丰富的智能建议,从而减少手动工作和数据准备时间。主要功能包括 AI 驱动的建议、数据清洗和标准化、可视化数据管道和数据管道编排。该工具与谷歌云服务如 Dataform 和云存储集成,提供统一且可扩展的数据管理环境。文章还展示了 GAF、mCloud Technologies 和 Public Value Technologies 等公司的客户评价,展示了该工具的实际效益和采用情况。

机器之心
jiqizhixin.com
10-28
3452 字 · 约 14 分钟
91

阿里旗下的通义于 10 月 24 日宣布了新产品「代码模式」,并开放试用预约,首批邀请 1024 名用户体验。该模式旨在降低应用开发的门槛,特别针对非专业程序员,提供实时预览和所见即所得的交互方式。通义代码模式基于 Qwen 2.5 大模型,能够实时生成代码并在网页上预览,支持 40 多种编程语言,显著提升了代码生成和推理能力。该模式不仅简化了代码生成流程,还提供了直观可视化的结果,使没有开发经验的人也能快速实现新想法。通义代码模式的推出,预示着 AI 在开发领域的新一轮迭代,可能成为未来 AI 发展的一个重要方向。

机器之心
jiqizhixin.com
11-01
3640 字 · 约 15 分钟
92
刚刚!ChatGPT 正式成为 AI 搜索,免费可用

OpenAI 在 ChatGPT 两周年之际,宣布推出 ChatGPT 搜索功能,标志着 ChatGPT 正式成为一款 AI 搜索引擎。这一更新消除了 ChatGPT 在即时信息获取方面的短板,用户现在可以通过网络资源链接快速、及时地获取答案。付费订阅者和候补名单用户已获得实时对话信息能力,免费用户、企业用户和教育用户将在未来几周内陆续获得访问权限。该功能覆盖 ChatGPT 的网页版、手机和桌面应用,用户可以主动触发网络搜索或由 ChatGPT 根据需求决定何时利用网络搜索结果。OpenAI 强调,ChatGPT 搜索旨在提供更好的答案,通过更自然的对话式提问方式,结合网络信息进行回复,并根据聊天上下文提供更深入的答案。为了补充最新信息,OpenAI 与新闻和数据提供商达成合作,并计划为不同类别使用新的视觉设计。此外,OpenAI 明确表示目前没有在 ChatGPT 中投放广告的计划,这一特点使其在用户体验上优于传统搜索引擎。在技术实现方面,ChatGPT 搜索模型是 GPT-4o 的微调版本,利用第三方搜索提供商和合作伙伴的内容。OpenAI 还在积极挖走谷歌员工加入搜索团队,并计划不断改进搜索体验,特别是在购物和旅行等领域。OpenAI 还计划将新的搜索体验引入高级语音和 canvas,并继续更新大模型的数据以确保用户获得最新进展。文章还提到了 OpenAI 在 Reddit 上的 AMA 问答活动,Sam Altman 和 Kevin Weil 回答了关于 ChatGPT-5、文生图模型、AGI 实现、开源策略、模型命名、相机模式、图片输入支持、推理成本降低、最佳用例、NSFW 内容支持、GPT 产品线突破、o1 完整版提升、2025 年预测等问题。最后,文章提到谷歌几乎在同一时间宣布了自家的 AI 搜索功能,推出了 Grounding 功能,使 Gemini API 和 Google AI Studio 用户能够从谷歌搜索获取实时信息,预示着 AI 搜索大战的开始。

Founder Park
mp.weixin.qq.com
10-30
7777 字 · 约 32 分钟
90
对话 Kyth:小宇宙 CEO 如何理解 AI 播客?

本文通过与小宇宙 CEO Kyth 的对话,深入探讨了 AI 播客与真人播客的本质区别,强调了真人情感和真实性在播客中的核心价值。Kyth 认为,尽管 AI 可以在播客创作中提效,但无法替代真人主播的独特性和听众对真实性的需求。此外,文章还讨论了播客行业的发展趋势,包括播客如何渗透不同圈层、内容供给的增加、播客作为品牌营销的新阵地,以及播客未来的商业化重点。Kyth 还分享了小宇宙在商业化、视频化方向的发展策略,以及对播客行业长期趋势的看法。最后,Kyth 强调了播客在情感连接和用户陪伴方面的独特价值,认为播客可以成为用户在焦虑和迷茫时的“避难所”和“心安的角落”。

Founder Park
mp.weixin.qq.com
10-18
9099 字 · 约 37 分钟
91
LangChain 创始人万字科普:手把手教你设计 Agent 用户交互

本文由 LangChain 创始人 Harrison Chase 撰写,详细探讨了智能体(Agent)的定义、设计及其用户交互。文章首先定义了智能体,并强调了智能体特性在开发、运行和评估中的重要性。接着,文章分析了智能体的规划和推理能力,指出当前大语言模型(LLM)在这方面的局限性,并提出了通过领域特定的认知架构来提升智能体性能的方法。随后,文章讨论了智能体系统中的用户交互模式,比较了流式聊天和非流式聊天的优缺点,并展望了未来可能出现的更多 UX 形式。此外,文章还探讨了智能体在后台运行时如何建立用户信任,介绍了电子表格用户体验、生成式 UI 和协作式 UX 等新兴的用户交互方式。最后,文章讨论了智能体与人类协作的 UX 设计,特别是协作式 UX 与环境 UX 的区别,强调了并发性和工作展示方式的不同需求。

Founder Park
mp.weixin.qq.com
10-25
6154 字 · 约 25 分钟
92
融资 1.35 亿,估值超 10 亿美元的法律 AI 公司,帮 1000 家律所追回了 15 亿赔偿金

EvenUp 是一家专注于利用 AI 技术处理个人伤害索赔的法律科技公司,近期完成了 1.35 亿美元的融资,估值超过 10 亿美元。该公司通过其 AI 工具 Piai™,帮助律师自动化生成索赔信和医疗年表,显著提高了案件处理的效率和准确性。EvenUp 已与超过 1000 家律所合作,成功追回了 15 亿美元的赔偿金,显示出 AI 在法律领域的巨大商业价值。文章还探讨了数据在 AI 落地中的关键作用,指出技术壁垒逐渐消失,高质量数据成为决定 AI 应用效果的核心因素。此外,文章提供了多个相关主题的文章链接,涵盖 AI 应用、创业公司、产品经理和 YouTube 商业化等。

机器之心
jiqizhixin.com
10-23
994 字 · 约 4 分钟
91
魔法填充+无限扩图,Ideogram 推出 AI 画板工具 Canvas

Ideogram 最近推出了一款名为 Canvas 的 AI 画板工具,该工具在图像生成和编辑领域展现了强大的功能和创意潜力。Canvas 的核心功能包括魔法填充(Magic Fill)和无限扩图(Extend),这些功能使得用户能够轻松地进行物体替换、文本增添、缺陷修复、背景更换等操作。用户只需选定保持不变的部分,并用文本描述想要生成的内容或场景,AI 就能自动完成复杂的图像处理任务。此外,Canvas 还具备将两张独立图像无缝连接的能力,以及在已有图像上添加风格一致的文字的功能,这些都是 Ideogram 的独特优势。Canvas 的无限画板功能还支持制作无限放大动画,进一步增强了其创意表达能力。尽管 Canvas 目前主要专注于图像生成,缺乏一些主流画板工具的用户绘图和元素链接功能,但其强大的图像处理能力已经吸引了大量用户的关注,包括 OpenAI 的创始成员 Andrej Karpathy。目前,Canvas 的基础功能已免费向所有用户开放,但高级功能如魔法填充和扩图则需要付费使用。

人人都是产品经理
woshipm.com
10-28
5136 字 · 约 21 分钟
91
与生成式 AI 的 6 种对话类型

本文通过对 ChatGPT、Bing Chat 和 Bard 等生成式 AI 对话机器人的 425 次交互进行分析,总结出六种常见的对话类型:搜索查询类对话、漏斗式对话、探索式对话、雕刻式对话、扩展式对话和精准定位类对话。每种对话类型都有其特定的使用场景和设计需求。文章详细描述了每种对话类型的特点、用户需求和设计建议,旨在帮助用户更有效地与 AI 交互,同时也为设计师提供了优化 AI 对话体验的实用指南。文章强调,不同的对话类型满足不同的信息需求,没有最佳的对话长度,关键在于根据用户目标提供合适的信息长短。此外,文章还讨论了对话时长的影响,指出对话轮次与信息获取的难易程度并无直接关联,而是取决于初始提示的清晰度和用户的信息需求。

人人都是产品经理
woshipm.com
10-24
2982 字 · 约 12 分钟
90
AI 创新设计:捏合总结的实践与思考

在数字化时代,用户对信息获取的即时性、准确性和个性化程度提出了更高的要求。百度 APP 面临搜索结果选择多、长文阅读低效、视频获取信息慢等问题,导致用户信息获取效率低下。为此,百度 APP 结合 AI 技术,推出了「捏合总结」功能,通过构建覆盖全场景的通用体验链路,提升用户的信息获取效率。文章详细介绍了「捏合总结」功能的设计过程,包括手势创新、精细化引导、全页面容器设计、动态反馈和结构化排版等方面。通过双指捏合手势触发,结合精细化引导策略,根据不同页面类型和内容质量调整引导强度,提升用户捏合心智。全页面容器和动态反馈设计增强了用户的沉浸式体验,而结构化排版则确保了 AI 总结生成内容的清晰度和易读性。此外,文章还探讨了智能感知的设计语言,包括智能符号、渐变色彩和表意动效,旨在增强 AI 功能的识别度和用户体验。通过这些设计,百度 APP 不仅解决了产品原有的体验问题,还为用户建立了全新的 AI 产品认知,助力功能发布和使用量的提升。

DeeplearningAI
mp.weixin.qq.com
10-28
1374 字 · 约 6 分钟
90

吴恩达在这篇文章中探讨了如何通过快速获取用户反馈来加速 AI 产品的开发和迭代。他指出,生成式 AI 使得快速原型化 AI 功能成为可能,这要求其他开发步骤也必须加速。吴恩达强调了快速行动的重要性,并提出了一个逐步获取用户反馈的策略列表,从让少数朋友试用到大规模 A/B 测试。他建议优先使用快速反馈的策略,以更快地改进产品。文章还提到了“快速行动,负责任地进行”的口号,强调在快速开发的同时避免发布可能造成重大危害的产品。吴恩达认为,通过这些策略,初创企业和大型企业的创新团队能够更快地前进,并提高成功的几率。

Z Potentials
mp.weixin.qq.com
10-28
15663 字 · 约 63 分钟
91

本文记录了红杉资本与 Snowflake CEO Sridhar Ramaswamy 的对话,深入探讨了 AI 的核心问题,即如何更有效、更灵活地转换数据。Ramaswamy 强调了数据转换的效率和灵活性在 AI 应用中的重要性,并介绍了 Snowflake 如何通过集成 AI 技术,简化数据访问和处理流程,提高数据互操作性,同时确保数据的安全性和治理。他还讨论了 AI 在企业软件中的颠覆性影响,以及 ChatGPT 等新兴技术在日常应用中的潜力。文章还涉及了既有企业与创业公司在 AI 领域的竞争,以及 AI 技术在软件工程中的应用和未来发展。

Engineering at Meta
engineering.fb.com
10-23
1288 字 · 约 6 分钟
91
Meta 的开放人工智能硬件愿景

在 2024 年开放计算项目 (OCP) 全球峰会上,Meta 展示了其最新的开放人工智能硬件设计,强调了在推进人工智能基础设施方面的合作和创新。主要创新包括为人工智能工作负载设计的新 Catalina 机架和大提顿平台的扩展,支持 AMD 加速器。Meta 对开放硬件的承诺源于支持 Llama 3.1 405B 等大型人工智能模型的需求,这需要在训练系统中进行大量优化。文章还强调了 Meta 与微软在解耦电源机架上的合作及其对开源人工智能的持续承诺,强调了开放硬件系统对于提供高性能、成本效益和适应性基础设施以促进人工智能发展的重要性。

腾讯研究院
mp.weixin.qq.com
10-30
5517 字 · 约 23 分钟
92
AI 时代,哪种人更被需要?

文章基于腾讯研究院资深专家袁晓辉在华南理工大学公共政策研究院第十一届国际会议上的发言内容,深入探讨了 AI 时代下人机协作的未来发展趋势。文章首先介绍了 OpenAI 提出的通向 AGI(通用人工智能)的五个阶段,从聊天机器人到推理者、智能体、创新者和组织者,展示了 AI 技术的逐步进化。随后,文章详细阐述了大模型的涌现能力和规模法则,强调了 AI 在提升个人生产力和具身智能方面的潜力。文章进一步分析了 AI 对未来社会的影响,提出了三种可能的未来情景:AI 赋能千行百业、AI 全面替代人的就业和人机共生。在第一种情景中,AI 在各行业的渗透呈现出“微笑曲线”模式,特别是在研发和市场销售环节。第二种情景探讨了 AI 全面替代人类工作的可能性,并引入了“全民基本收入”的概念来应对潜在的社会问题。第三种情景则展望了人机共生的未来,强调了 AI 在帮助人类实现自我实现和创造力方面的作用。文章还讨论了能源革命对智能革命的推动作用,以及“后稀缺”时代的概念,探讨了人类在资源充足情况下的工作重点和价值体现。最后,文章强调了在 AI 时代,关注价值、成为创作者、有效利用工具和与他人合作的重要性,呼吁人们拥抱生命的创造力、热情和冲动,成为生产者并与他人合作。

Z Potentials
mp.weixin.qq.com
10-31
13439 字 · 约 54 分钟
91
喝点 VC|红点创投对话 HeyGen 创始人,谈 TikTok 的 GenAI 困境及通往互动虚拟形象的道路

HeyGen 是一个专注于 AI 视频生成的平台,旨在通过 AI 技术提升视频质量,满足客户需求。创始人 Joshua Xu 在与红点创投的对话中,详细讨论了 HeyGen 的产品特性、市场定位以及技术挑战。他强调了 AI 在视频制作中的应用前景,特别是生成式 AI 和虚拟形象技术的发展,使得视频制作速度和成本大幅降低。HeyGen 的主要应用场景包括创作、本地化和个性化视频,旨在让每个人都能进行视觉故事讲述。此外,Joshua Xu 还讨论了企业级应用的质量要求、信任与安全的重要性,以及 AI 初创公司在融资和财务策略上的考虑。他展望了未来五年,每个人都将拥有一个随身携带的视频制作公司,HeyGen 希望提供与专属视频制作公司互动的体验。

Latent Space
latent.space
10-18
17374 字 · 约 70 分钟
92
构建硅基智能 - 与 Dropbox 的德鲁·休斯顿

Dropbox 的 CEO 德鲁·休斯顿讨论了他与大型语言模型 (LLM) 的广泛经验,以及他将人工智能整合到 Dropbox 核心业务的愿景。他设想一个未来,人工智能将作为人类工作的补充工具,特别是在知识工作和自动化方面。休斯顿的旅程始于他与 LLM API 的第一次互动,这使他投入了超过 400 小时的时间与这些模型编码。这种亲身经历塑造了他对 Dropbox 的战略方向,Dropbox 正在从文件同步服务转变为一个整合各种应用程序和存储提供商的综合工作空间。休斯顿强调了克服创新者困境和淘汰传统业务以向前发展的重要性。他看到了人工智能在增强客户关系和应用程序层方面的战略价值,而不仅仅是一个大型语言模型。他对小型 LLM 的最初怀疑被 ChatGPT 和 GPT-3 的发布所克服,这标志着他对人工智能潜力的看法的转折点。对话还涉及预测技术进步时机和在人工智能开发中校准期望的重要性。休斯顿使用自动完成和 Google 地图等例子来说明从第一级到更高自主性的人工智能产品的进展。他还讨论了 COVID-19 对远程工作的影响,以及 Dropbox 如何拥抱这种新的工作模式,将公司变成了分布式工作的实验室,并增强了 Dropbox Dash 等产品,以应对分布式知识工作的挑战。

Latent Space
latent.space
10-25
17588 字 · 约 71 分钟
93
NotebookLM 的诞生

本文深入探讨了 NotebookLM 的创建和成功,它是一款 AI 驱动的工具,旨在从各种来源生成对话式播客。NotebookLM 的独特功能包括通过加入微小的插入语和自然停顿来创建引人入胜且类似人类的对话。开发过程涉及产品团队和 AI 工程团队之间的密切合作,遵循特定的规则,如专注于简单性和实时反馈。本文还强调了 NotebookLM 的快速增长和意外的用户采用,特别是在日本,用户欣赏其语言支持。社区反馈在识别问题和理解用户需求方面至关重要,同时也要承认功能上的成功和失败。

Founder Park
mp.weixin.qq.com
10-30
6635 字 · 约 27 分钟
91
GPT-4o、NotebookLM 带来的 AI 语音新变化,声网们是怎么想的?

本文从多个角度深入探讨了 AI 语音交互的新趋势及其对 IT 行业的深远影响。首先,GPT-4o 和 NotebookLM 展示了 AI 语音实时交互的新趋势,成为行业焦点。生成式 AI 将驱动 IT 行业四个变革:终端进化、软件重构、云服务能力提升、人机界面变革。然而,AI 商业化面临 6000 亿美元的难题,讨论集中在模型大小和架构的优化。接着,文章讨论了开源模型与闭源模型的优劣、AI 模型的未来趋势以及 AI 在实时互动中的应用。开源模型通过社区快速迭代和生态建设,但目前尚未能解决所有应用问题。AI 基础设施将逐渐标准化,未来两年内 AI 成本将大幅下降。生成式 AI 改变了实时互动的内容模态,产品设计需考虑模型作为用户。此外,文章探讨了大模型在企业中的应用、数据安全、效果优化及成本控制,以及语音交互作为 AI 产品新入口的潜力。

ShowMeAI研究中心
mp.weixin.qq.com
10-27
4798 字 · 约 20 分钟
91
ShowMeAI 周刊 No.9 | 最有讨论度的 10 个 AI 话题:问问小宇宙,有挂,赵纯想,字节实习生…

ShowMeAI 周刊第 9 期展示了 AI 领域的多样性和快速发展,涵盖了多个热门话题和创新应用。文章首先介绍了“问问小宇宙”和“有挂”两款 AI 应用,展示了如何通过 AI 工具提升用户体验和解决实际问题。接着,文章探讨了如何使用 AI 生成动态图,介绍了 Claude Artifacts 和 3Brown1Blue 等工具,展示了 AI 在图像和视频生成方面的潜力。此外,文章还分享了提示词技巧,展示了如何通过提示词生成多种形式的时间轴,并介绍了相关的 AI 工具和应用。在论文工具方面,文章列出了多个常用的 AI 论文助手,并讨论了 AI 检索和生成内容的准确性问题。独立开发者赵纯想的分享则展示了独立开发者在 AI 领域的创新和实践,他的产品“胃之书 AI”和“陌生人闹钟”受到了广泛关注。文章还涉及了 AI 创业故事,如 FateTell 拒绝近千万投资的事件,以及 AI 生图市场的产品整理与需求分析。此外,文章还讨论了 OpenAI 的高管离职和内部动荡,结合 Paul Graham 的“Founder mode”文章,分析了创业公司向大公司转型时可能面临的挑战。最后,文章提到了近期 AI 圈内的多个“吃瓜”事件,展示了 AI 圈内的复杂性和多样性。

Last Week in AI
lastweekin.ai
10-31
2048 字 · 约 9 分钟
91
上周 AI #293 - 苹果 AI 功能,GitHub 多模型 Copilot,Anthropic 的计算机交互 AI

文章 '上周 AI #293 - 苹果 AI 功能,GitHub 多模型 Copilot,Anthropic 的计算机交互 AI' 详细总结了 AI 行业的最新进展和新闻。主要亮点包括苹果引入的 AI 功能,如集成写作工具和 Siri 增强功能,GitHub Copilot 扩展支持多个 AI 模型,以及 Anthropic 的创新 AI 模型具有计算机交互能力。此外,文章还涵盖了各种 AI 工具更新、商业发展如特斯拉的无人出租车测试和 OpenAI 的硬件计划,以及研究进展如 Meta 的 AI 解决复杂数学问题。文章还涉及与 AI 相关的关注点,包括法律问题和伦理考虑。

赛博禅心
mp.weixin.qq.com
10-31
8772 字 · 约 36 分钟
91
10 月盘点:AI 行业大事记

10 月份 AI 行业迎来了一系列重要事件和发布,涵盖了多个公司和机构在 AI 技术、模型、应用和开源项目方面的最新动态。多家公司如 OpenAI、苹果、字节跳动、vivo、Mistral AI、荣耀等发布了新的 AI 模型和应用,展示了 AI 技术在不同领域的广泛应用,包括视频生成、语音识别、图像处理等。开源项目在 AI 领域持续活跃,多个项目在 10 月份开源,如 DeepSeek 的 Janus 和智谱的 GLM-4-Voice。此外,端侧模型成为手机侧原生 AI OS 的重点方向,Claude Artifacts 交互模式被广泛认可,国内外厂商纷纷跟进。NotebookLM 因其创新性和广泛关注度成为 AI 行业的热点,State of AI Report 2024 对未来 12 个月进行了 10 大预测,涉及 AI 领域的多个方面。整体来看,10 月份的 AI 行业动态展示了技术的快速发展和广泛应用,预示着 AI 技术的新趋势和未来方向。

    BestBlogs.dev 精选文章 第 23 期 | BestBlogs.dev