跳转到主要内容
精选推送

BestBlogs.dev 精选文章 第 38 期

👋 亲爱的读者朋友们,欢迎阅读本期 AI 领域精选文章!

本期,我们精心挑选了 30 篇人工智能领域的优质文章,为您深度剖析 AI 技术的最新突破与发展趋势。本周,大语言模型生态持续繁荣 ,Google、OpenAI 等科技巨头纷纷发布更强大、更易用的模型,加速 AI 技术进程。此外,AI Agent 技术多模态应用 以及安全可观测 等领域也迎来诸多进展。让我们紧随 AI 浪潮,一同探索本周的精彩内容!

本周亮点:

  1. Gemma 3 发布:单 GPU 可运行的最强开源模型 : Google DeepMind 发布 Gemma 3 开源模型系列,基于 Gemini 2.0 技术,提供 1B 至 27B 多种尺寸选择,单 GPU 即可高效运行。支持 35+ 种语言、多模态推理及函数调用,大幅降低使用门槛,加速开源 AI 普及。

  2. Gemini 2.0 Flash 原生图像生成开放实验 : Google 开放 Gemini 2.0 Flash 原生图像生成功能,开发者可率先体验多模态大模型的强大图像创作能力,尤其在文本渲染和世界知识理解方面表现出色,为多模态 AI 应用开辟新方向。

  3. OpenAI 智能体工具链 Responses API & Agents SDK 发布 : OpenAI 重磅推出 Responses API,统一 Chat Completions 和 Assistants API 接口,内置网络搜索、文件搜索等实用工具,并发布开源 Agents SDK,四行代码即可构建智能体应用,大幅简化 Agent 开发流程。

  4. Open-Sora 2.0:开源视频生成模型成本革命 : 11B 参数的 Open-Sora 2.0 开源模型,实现媲美 30B 模型的视频生成效果,训练成本仅 20 万美元,大幅降低 10 倍。模型权重、代码、流程全面开源,推动高质量、低成本视频生成技术发展。

  5. 腾讯混元快思考 Turbo S 模型:推理速度大幅跃升 : 腾讯混元发布新一代旗舰模型 Turbo S,首字响应时间降低 44%,吞吐提升 100%,API 定价大幅降低。采用 Hybrid Mamba Transformer 架构,兼顾线性复杂度和全局建模能力,提升用户体验并降低使用成本。

  6. 模型上下文协议 (MCP):引领智能体开发新范式 : Anthropic 等力推 MCP 协议,旨在统一 AI 模型与外部工具的连接标准,大幅简化 Agent 集成复杂度,被誉为 AI 领域的 "USB-C",有望成为智能体开发的关键基础设施。

  7. 长文本向量模型检索局限性: 4K Tokens 成瓶颈? : Jina AI 实验揭示,当前向量模型在处理超过 4K Tokens 长文本时,检索准确率显著下降,长文本理解能力面临挑战,引发对长文本检索技术的深入思考与改进需求。

  8. Gemini 应用升级:多模态能力与用户体验再提升 : Gemini 应用迎来重大更新,搭载更强大的 2.0 Flash Thinking 模型,支持更长上下文窗口和文件上传,并推出个性化 Gems 功能,多模态能力和用户交互体验显著提升。

  9. AI 笔记神器 NotebookLM:多场景应用保姆级教程 : Google AI 笔记工具 NotebookLM 功能持续增强,在文献梳理、速读学习、会议纪要等多种场景展现高效应用价值。保姆级教程助您快速掌握 NotebookLM 使用技巧,提升学习与工作效率。

  10. LeCun 洞察: AI 发展需理解物理世界,突破语言限制 : LeCun 高度评价 DeepSeek 开源贡献,同时强调当前 AI 系统在理解物理世界方面仍显不足,认为 AI 发展需超越文本训练,理解真实世界的复杂性,为 AGI 发展指明新方向。

🔍 想深入了解这些精彩内容?欢迎点击对应文章链接,探索更多 AI 领域的创新与发展!让我们在快速迭代的 AI 浪潮中携手并进,共同迎接人工智能的无限未来。

Google DeepMind Blog
deepmind.google
03-12
1136 字 · 约 5 分钟
93
Gemma 3 介绍:可在单 GPU 或 TPU 上运行的最具能力的模型

谷歌 DeepMind 推出 Gemma 3,这是基于 Gemini 2.0 构建的最新开放模型,它不仅为超过 140 种语言提供多语言支持,更提升了性能。Gemma 3 具备强大的多模态能力,可以分析图像、文本和短视频;同时,它还配备了扩展的 128k-token 上下文窗口,并支持函数调用以实现任务自动化。Gemma 3 性能卓越,超越 Llama-405B 等模型,且可在单个图形处理器或张量处理器上运行。此外,Gemma 3 还引入了量化版本以提高效率。与 Gemma 3 同时发布的还有 ShieldGemma 2,一款图像安全检查器。Gemma 3 可与 Hugging Face Transformers、Ollama 和 NVIDIA 图形处理器等常用工具集成,并针对谷歌云张量处理器进行了优化。Gemma 3 学术项目为研究人员提供云积分,进一步壮大 Gemmaverse 社区。

Gemma 3 发布:开发者指南

Gemma 3 是谷歌最新一代的开源模型,相比之前的 Gemma 版本有了显著改进。它支持多模态输入,包括视觉语言,处理高达 128k Tokens 的上下文窗口,理解超过 140 种语言,并增强了数学、推理和聊天能力,包括结构化输出和函数调用。Gemma 3 提供四种尺寸(1B、4B、12B 和 27B),包括预训练模型和通用指令调整版本,基于 2T 到 14T Tokens 训练,具体取决于模型大小。它使用蒸馏、强化学习和模型合并等优化技术构建,并在谷歌 TPUs 上使用 JAX 框架进行训练。Gemma 3 还包括 ShieldGemma 2,这是一个 4B 图像安全分类器,用于合成和自然图像的安全审查,为 AI 安全做出贡献。

Gemini 2.0 Flash 原生图像生成实验:开发者的新选择

Google 发布了 Gemini 2.0 Flash 的实验版本,该版本引入了原生图像生成功能,并已向所有 Google AI Studio 支持的区域的开发者开放。Gemini 2.0 Flash 结合了多模态输入、增强的推理能力和自然语言理解,可以根据用户需求生成图像。文章通过多个示例展示了 Gemini 2.0 Flash 在文本图像结合、会话式图像编辑、世界知识理解和文本渲染方面的优势。开发者可以通过 Gemini API 开始使用 Gemini 2.0 Flash,并根据官方文档了解更多关于图像生成的信息。Google 鼓励开发者提供反馈,以帮助最终确定生产版本。

新智元
mp.weixin.qq.com
03-12
8017 字 · 约 33 分钟
93
OpenAI 深夜大招暴打 Manus!智能体全家桶杀器一统 API,4 行代码轻松上手

文章介绍了 OpenAI 发布的一系列用于简化智能体开发的工具和 API,包括:Responses API,它结合了 Chat Completions API 的简单性和 Assistants API 的工具使用功能,提供统一的 API 接口;内置三大工具:网络搜索、文件搜索和计算机使用;Agents SDK,一个开源的 SDK,用于编排单智能体和多智能体工作流程。这些工具旨在降低智能体开发的门槛,提高开发效率,并使开发者能够更轻松地构建功能强大的智能体应用。此外,OpenAI 计划在未来弃用 Assistants API,并提供迁移指南。

量子位
qbitai.com
03-13
3034 字 · 约 13 分钟
93
11B 模型拿开源视频生成 SOTA!仅用 224 张 GPU 训练,训练成本省 10 倍

Open-Sora 2.0 是新发布的开源视频生成模型,它以 11B 的参数规模,实现了与 HunyuanVideo 和 Step-Video 等 30B 参数模型相近的性能。该模型将训练成本压缩至 20 万美元,远低于市面上动辄数百万美元的闭源模型。Open-Sora 2.0 全面开源了模型权重、推理代码和分布式训练流程,采用 3D 自编码器和 Flow Matching 框架,并通过多桶训练和 3D 全注意力机制提升视频质量。通过数据筛选、低分辨率训练、图生视频任务优先训练以及高效并行训练等手段,Open-Sora 2.0 在视觉表现、文本一致性和动作表现上均有显著提升,并大幅降低了训练和推理成本,为开源视频生成技术树立了新标杆。

Groq
groq.com
03-08
1234 字 · 约 5 分钟
91
Qwen QwQ-32B 推理指南:Groq 平台的极速 AI 推理

本文介绍了阿里巴巴 Qwen 团队发布的 QwQ-32B 模型,该模型通过强化学习,推理能力媲美更大参数量的模型。文章重点介绍了 QwQ-32B 的工具使用和函数调用能力,以及在 Groq 平台上进行快速推理的最佳实践。QwQ-32B 的优势在于其参数量小,但性能接近大型模型。文章还分享了 QwQ-32B 的使用注意事项,如中文字符处理、输出管理及 API 参数设置。Groq 平台提供极具竞争力的快速推理服务。最后,文章鼓励开发者尝试 QwQ-32B 并分享他们的经验。

腾讯混元
mp.weixin.qq.com
03-12
5194 字 · 约 21 分钟
91
【直播笔记】十问腾讯混元快思考 Turbo S

针对大模型推理速度慢、成本高等问题,腾讯混元正式推出新一代旗舰快思考模型 Turbo S。该模型相比上一代 Turbo 模型,首字响应时间降低 44%,吞吐提升 100%,API 定价也大幅降低。Turbo S 的关键创新在于采用了 Hybrid Mamba Transformer 架构,结合了 Mamba 的线性复杂度和 Transformer 的全局建模能力。此外,在工程优化方面,Turbo S 针对 Mamba 结构进行了适配,通过序列并行技术节省了通信和计算资源,并降低了 KV cache 的压力。腾讯混元还在 MoE 路线上进行了探索,通过 Share 专家和补偿路由机制提升了参数效率和训练稳定性。在 scaling law 方面,团队发现在低精度训练下,数据量增加到一定阈值会导致模型效果下降。Turbo S 通过长短思维链融合,提升了在数学、代码和逻辑推理等任务上的表现。在腾讯元宝等应用中,Turbo S 显著提升了用户体验,开发者和企业用户可以通过腾讯云 API 调用体验 Turbo S。

Jina AI
mp.weixin.qq.com
03-11
6736 字 · 约 27 分钟
91
长文本向量模型在 4K Tokens 之外形同盲区?

Jina AI 团队通过实验,深入研究了向量模型在长文本处理中的性能瓶颈。实验结果表明,随着文本长度增加,向量模型的检索准确率和区分有用信息的能力显著下降,例如分离度指标在 1000 词元时下降 60%,AUC 降至 0.66。即使采用查询扩展和关键词匹配等优化策略,也难以有效改善长文本检索效果。研究揭示了当前向量模型在长文本理解和推理方面的局限性,并通过归一化相似度得分、分离度等关键指标,对向量模型在长文本处理能力上进行了深入分析,为未来长文本检索技术的发展方向提供了有价值的参考。

宝玉的分享
baoyu.io
03-09
2067 字 · 约 9 分钟
92
什么是模型上下文协议(MCP)?它如何比传统 API 更简单地集成 AI?

本文深入浅出地介绍了模型上下文协议(MCP)的概念、工作原理及其与传统 API 的区别。MCP 旨在通过统一的接口,简化 AI 模型与各种外部工具和数据源的连接。文章解释了 MCP 如何通过单一协议、动态发现和双向通信,解决传统 API 集成复杂、扩展性差等问题。通过旅行规划助手、智能 IDE 和复杂数据分析等应用案例,展示了 MCP 在实际应用中的优势。同时,文章也探讨了传统 API 在特定场景下的适用性,并提供了快速集成 MCP 的步骤。MCP 不仅仅是一种 API,更是一个强大的连接框架,让 AI 应用能更智能、更动态地融入丰富的上下文环境,快速实现复杂的功能互动。

新智元
mp.weixin.qq.com
03-10
3976 字 · 约 16 分钟
92
1 次搭建完胜 1 亿次编码,MCP 硅谷疯传!Anthropic 协议解锁智能体「万能手」

本文深入介绍了 Anthropic 提出的模型上下文协议(MCP),旨在解决 AI 智能体与外部工具和服务集成时的复杂性和低效问题。MCP 通过提供一个标准化的通用接口,类似于 USB-C 接口对于设备的连接,极大地简化了 AI 模型与各种外部资源之间的交互,使配置次数从 1 亿次降低到 2 万次 。文章详细解释了 MCP 的架构、工作原理及其与传统 API 的区别,强调了 MCP 在灵活性、实时双向通信和动态发现方面的优势。此外,文章还列举了 MCP 在行程规划助手、高级 IDE 和复杂数据分析等领域的应用场景,并介绍了多个开发者基于 MCP 构建的开源项目,展示了 MCP 在 AI 智能体领域的巨大潜力。

Latent Space
latent.space
03-10
15949 字 · 约 64 分钟
92
MCP 胜出的原因

本文分析了模型上下文协议 (MCP) 作为 AI 智能体领域中的一个开放标准的迅速崛起。尽管存在其他标准和框架,但 MCP 因其“AI 原生”设计、Anthropic 的支持、强大的开发者品牌以及基于语言服务器协议 (LSP) 的技术基础而获得了广泛关注。MCP 解决了 AI 智能体的动态上下文访问问题,并促进了一个蓬勃发展的开发者社区和生态系统。与其他标准不同,MCP 侧重于动态上下文访问,而不是大型语言模型 (LLM) 互操作性,提供了一个完整的工具链和 SDK,以降低入门门槛。

浮之静
mp.weixin.qq.com
03-12
6558 字 · 约 27 分钟
91
浅谈 Agent、MCP、OpenAI Responses API

文章梳理了 AI Agent、MCP 和 OpenAI Responses API 等近期 AI 领域的热点概念。AI Agent 是自主行动的智能实体,MCP 是一种标准化 LLM 与外部系统集成的协议,而 OpenAI Responses API 则是一种便捷调用 OpenAI 大模型能力的方式,是未来在 OpenAI 平台构建 Agent 的主线。OpenAI 为开发者推出了一系列构建智能体的新工具,包括集成了 Chat Completions API 和 Assistants API 优点的 Responses API,以及网络搜索、文件搜索和计算机操作等内置工具。此外,还介绍了用于简化多 Agent 工作流编排的开源 Agents SDK。OpenAI 正在努力使 Responses API 在功能上全面覆盖 Assistants API,并计划在 2026 年中期正式发布 Assistants API 的弃用通知。文章还提到了这些技术面临的挑战,如上下文长度限制和结果正确性等,并强调了在 Agent 应用中人仍然需要发挥作用。

Founder Park
mp.weixin.qq.com
03-10
9223 字 · 约 37 分钟
91
Github 超 2 万星,OpenManus 核心作者聊 Agent 发展趋势

文章是对 OpenManus 团队核心成员的一次分享内容的整理,主要讨论了 Agent 技术的发展趋势以及 OpenManus 的技术实现原理。基于 MetaGPT 团队的技术积累,OpenManus 团队在短时间内复刻了 Manus,并在 Github 上获得了大量关注。分享中,团队成员对大模型能力提升、Agent 规划、工具使用、Memory 管理、商业化落地等多个方面进行了深入分析,并提出了未来 Agent 技术的发展方向,包括规划能力增强、标准化评测和模型适配等。此外,文章还介绍了 MetaGPT 团队在多智能体研发方面的技术积累,并探讨了 Agent 在代码生成领域的商业化前景。

腾讯技术工程
mp.weixin.qq.com
03-10
21719 字 · 约 87 分钟
92
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发

本文旨在帮助非 AI 背景的开发者快速上手大模型应用开发。文章首先强调,参与大模型应用开发无需深厚的 AI 和数学知识。接着,详细介绍了基于 LLM 的应用开发流程,包括 Prompt 工程和 Function Calling。随后,文章深入讲解了如何将大模型与具体业务知识结合,实现 RAG(检索增强生成),解决知识问答场景中的问题。最后,文章还探索 AI Agent 的应用方向,为开发者指明了在大模型浪潮中的发力点。通过本文,读者可以了解大模型应用开发的核心技术和流程,从而更好地拥抱技术变革。

FireCrawl Blog
firecrawl.dev
03-11
3585 字 · 约 15 分钟
91
面向检索增强生成(RAG)的现代技术栈

本文详细介绍了构建现代 RAG 系统所需的技术栈。首先解释了 RAG 的核心概念和优势,强调其在提高人工智能系统的准确性和可靠性方面的重要性。然后讨论了构建 RAG 系统,是选择从头开始还是使用现有平台。文章对此进行了对比分析。进一步分析了 RAG 系统的关键组件,包括数据提取、文档处理、文本分割、嵌入和向量数据库,并为每个阶段推荐合适的工具和平台,例如 LangChain、LlamaIndex、Unstructured.io、OpenAI 向量嵌入和 Pinecone。此外,还提到了查询理解和重排序工具在提高检索准确性和效率方面的作用。本文旨在帮助读者全面理解 RAG 系统的技术组成部分,并指导读者选择合适的工具,以获得最佳性能。

阿里云开发者
mp.weixin.qq.com
03-12
6302 字 · 约 26 分钟
91
详解大模型应用可观测全链路

本文深入探讨了 LLM 应用可观测面临的挑战,如性能成本、使用体验、效果评估和安全合规等问题,并介绍了阿里云可观测解决方案如何应对这些挑战。文章详细阐述了 LLM 应用的关键组件和可观测数据类型,包括 AI 网关、内容安全、工具调用和 RAG 技术等。此外,还介绍了阿里云在采集治理、领域视图和根因定位等方面的实践,以及如何通过 Python Agent 实现自动化埋点和端到端链路追踪,为 LLM 应用开发者提供全方位的可观测能力。

AINLP
mp.weixin.qq.com
03-11
4186 字 · 约 17 分钟
90
从 OpenManus 看到底什么是 Agent

文章深入剖析了 OpenManus 项目,旨在揭示当前 Agent 开发的关键要素。文章首先介绍了 OpenManus 的工程结构和依赖,然后详细分析了其 Tool、Prompt 和 Agent 的设计与实现,特别是 ReAct 模式在 Agent 推理中的应用。接着,文章探讨了 Flow 机制,即在 Manus Agent 之上构建 Planning 层,以实现更高级的任务规划与调度。最后,作者总结了 Agent 开发的四个核心环节:模型升级、工具提供、Prompt 优化和展示设计,并指出 Cursor 公司在这些方面均有布局,是 Agent 开发环节整合的成功案例。文章认为,尽管通用 Agent 的实现仍面临挑战,但 Prompt 工程在特定场景下仍有价值。

AI前线
mp.weixin.qq.com
03-11
8619 字 · 约 35 分钟
92
张向征:大模型安全研究与实践

本文是 360 智脑总裁张向征在 AICon 全球人工智能开发与应用大会上关于大模型安全研究与实践的演讲实录。文章深入分析了大模型在落地应用过程中面临的各类安全风险,包括训练环节的数据泄露、模型投毒,服务环节的用户信息泄露、内容合规性问题,以及提示注入等新型风险。同时,文章还指出了大模型软件生态中存在的传统安全漏洞和新型安全风险。最后,文章从系统安全、内容安全和幻觉问题三个方面,详细阐述了大模型安全的解决方案,包括安全检测大模型(识别和评估输入内容安全性)、安全回复大模型(提供安全合理的回答方案)、攻击大模型(模拟恶意攻击,强化模型弱点)和安全评测大模型(评估模型安全性)等。

The Keyword (blog.google)
blog.google
03-13
830 字 · 约 4 分钟
92
Gemini 应用新功能上线,免费体验!

Google 宣布对其 Gemini 应用进行了重大升级。升级后的 2.0 Flash Thinking Experimental 模型具有更长的上下文窗口(1M 令牌)并支持文件上传,从而提升了推理能力和效率。“深度研究”功能也已通过 Gemini 2.0 Flash Thinking Experimental 进行了升级,从而提升了报告质量和洞察力,并使其在全球范围内免费提供给用户。新的个性化功能允许 Gemini 连接到用户的 Google 应用和服务(例如搜索 Search),从而提供更加量身定制的响应。此外,Gemini 将支持连接到更多 Google 应用,如日历、笔记、任务和照片,以处理更复杂的请求。Gems 功能现已完全可用,允许用户自定义 Gemini 并创建个性化的 AI 专家,并上传文件以获取更多参考信息。这些更新旨在提高效率、准确性和用户体验。

歸藏的AI工具箱
mp.weixin.qq.com
03-13
695 字 · 约 3 分钟
91
视频制作新时代来了!Gemini 2 一句话生成所有分镜图片和文案

文章介绍了谷歌发布的 Gemini 2.0 模型,该模型原生支持图片生成和编辑,可以实现通过对话修改图片、混合图片、从草稿生成产品渲染图等功能。其最强大的能力在于生成多张跨场景图片时,能保证人物特征和场景的一致性,这解决了视频创作中长期存在的难题。用户只需输入一句话,Gemini 2.0 就能生成一个完整故事所需的所有图片分镜和口播稿,并可快速在剪映等工具中完成视频制作。此外,文章还提到可以将生成的图片导入可灵和海螺等工具中生成视频,进一步提升表现力。最后,文章介绍了 Gemini 2.0 的使用方式,并强调 Gemini 2 在视频多模态理解方面的优势,预示着视频生成和编排新时代的到来,极大地简化了视频创作流程。

歸藏的AI工具箱
mp.weixin.qq.com
03-11
2427 字 · 约 10 分钟
91
一键搞定、100%成功、80 老太都能操作,宝藏提示词将你的任何内容生成网页

文章介绍了如何利用 Claude 3.7 结合优化后的提示词,将各种类型的文档内容(包括文字、图片和视频)快速转换为具有专业设计风格的可视化网页。文章首先回顾了之前的提示词,然后展示了用户利用该提示词生成的各种案例,如物理演示、疾病治疗方案、赛博朋克风学习方案和读书笔记等,体现了提示词的广泛适用性。接着,重点介绍了升级后的提示词,该提示词支持插入图片和视频,并详细讲解了如何获取在线图片链接和视频嵌入代码,以及如何通过 Markdown 文件进行内容组织。最后,提供了完整的提示词,并介绍了如何分享生成的网页。强调了该提示词的易用性和广泛适用性,适用于各种行业和场景,即使是编程零基础的用户也能轻松上手。

Datawhale
mp.weixin.qq.com
03-10
1825 字 · 约 8 分钟
90
AI 笔记神器 NotebookLM,保姆级教程来了!

文章详细介绍了 Google 的 AI 笔记工具 NotebookLM,强调其在提升学习和工作效率方面的作用,利用 AI 技术快速理解和分析文档内容。文章从 NotebookLM 的基本概念和优势入手,然后深入讲解了其在文献梳理、量子速读、简历助手和会议纪要等多种场景下的应用。针对每种应用场景,文章都提供了详细的使用步骤和技巧,并配有大量截图,方便读者理解和上手。此外,文章还分享了使用 NotebookLM 的一些小贴士和常见问题解答,帮助读者更好地利用这款工具。文章旨在帮助读者快速掌握 NotebookLM 的使用方法,从而在学习和工作中实现效率提升。

Microsoft Research Blog
microsoft.com
03-10
1334 字 · 约 6 分钟
92
语义遥测:洞察用户与人工智能系统的交互方式

本文介绍了微软研究院的语义遥测项目,这是一种旨在了解用户如何与人工智能系统交互的数据科学方法。它利用大型语言模型 (LLM) 生成有意义的分类标签,从而深入了解基于对话的 AI 的使用情况。该分析侧重于用户如何在 Bing 中使用 Copilot,涵盖主题分类和任务复杂性,并与传统的搜索引擎进行比较。研究表明,Bing 中的 Copilot 被用于更复杂的任务,尤其是在技术领域。文章强调了 LLM 如何推动人机交互研究的新方向,通过分析传统数据科学方法难以处理的复杂交互数据,从而增强用户体验和满意度。这提升了用户体验和满意度。

十字路口Crossing
mp.weixin.qq.com
03-07
18735 字 · 约 75 分钟
91
20 个问题,解读 AI 视频元年|对谈 Luma AI 产品经理 Barkley

文章以对话形式,深入探讨了 AI 视频模型领域的最新进展。Luma AI 产品经理 Barkley 分享了对 Sora 发布一年来行业变化的观察,包括视频模型架构的演进、各主要玩家的定位与策略,以及工程和管理能力在数据处理中的重要性。Luma AI 专注于研究,致力于实现视觉领域的 AGI 和世界模型,并推出了新一代 Ray2 模型,在物理规律模拟和特定领域微调方面表现出色。讨论还涉及通向 AGI 的路径选择、研究与商业化的平衡,以及硅谷 AI 社区的文化。此外,文章还探讨了 AI 视频模型的未来发展趋势,如角色一致性和实时视频生成等。

腾讯科技
mp.weixin.qq.com
03-07
20750 字 · 约 83 分钟
93
独家对话 Manus 肖弘:世界不是线性外推,做博弈中的重要变量

文章是腾讯科技对 Manus AI 创始人兼 CEO 肖弘的访谈,深入探讨了 AI 应用创业的机遇与挑战。肖弘分享了 Manus AI 从 AI 应用出发的战略选择,以及对大模型时代“新时代的安迪比尔定律”的独特见解,即模型能力外溢为 AI 应用公司提供了专注用户体验和特定场景的发展空间。他认为,创业者应抓住垂直领域和原厂不做的机会,打造差异化产品。同时,肖弘还介绍了 Manus AI 的两款主要产品 Monica.im 和 Manus.im,后者采用了异步 Agent 设计, 并分享了对 DeepSeek 等模型厂商的观察,强调了产品体验和差异化竞争的重要性。最后,他总结了 AI 创业者应具备的心态:保持乐观、坚持热爱,并以更激进的姿态拥抱技术变革。

Founder Park
mp.weixin.qq.com
03-08
4591 字 · 约 19 分钟
91
解构 Manus AI:从 Artifacts 到 Deep Research,Manus 的技术创新和整合有哪些?

文章深入分析了 Manus AI 的技术架构与创新之处。首先阐述了 AI Agent 的核心能力,并探讨了 Planning (规划) 和 Tool Use (工具使用) 领域的技术进展。文章指出,Manus AI 有效整合了 DeepResearch、Artifacts 和 Operator 等现有 AI 技术,通过推理模型简化结构并增强智能处理,提供了简洁强大的工作流升级。然而,Manus AI 在无边界操作系统级环境中未取得突破,本质上是对现有技术的优化组合,而非革命性创新。

大模型智能
mp.weixin.qq.com
03-13
12543 字 · 约 51 分钟
91
教授何恺明在 MIT 的最新讲座!

本文为何恺明教授在 MIT “深度学习日” 的演讲稿,主要介绍了生成式模型。首先,何教授阐述了生成式模型的基本概念及其在文本、图像、视频生成和科学研究等领域的广泛应用,强调了它与判别式模型的区别,以及概率建模的核心作用。接着,他深入探讨了深度学习在生成式模型中的应用,并介绍了 VAE、GAN、自回归模型和扩散模型等主流方法。此外,他还强调了生成式模型作为 “下一级抽象” 的重要性,并探讨了如何将现实问题形式化为生成式模型。最后,在问答环节,何教授还就生成式模型在复杂任务与简单任务上的表现差异、双向建模的可能性以及目标函数是否明确等问题进行了详细解答,为理解生成式模型提供了宝贵的视角。

量子位
qbitai.com
03-10
8080 字 · 约 33 分钟
91
LeCun 最新访谈对 DeepSeek 一顿猛夸,还谈了 AI 发展需理解物理世界

LeCun 在最新访谈中高度评价 DeepSeek 的开源贡献,认为其不仅使成果创造者受益,也使全世界受益。他强调金融市场对 DeepSeek 的反应是错误的,因为大部分投资应用于运行模型而非训练模型。LeCun 还提到 OpenAI 的 “星际之门” 项目投资规模与 Meta、微软等公司处于同一数量级。他着重指出当前 AI 系统在理解物理世界方面仍然 “愚蠢”,认为 AI 发展需要理解复杂物理世界, 突破语言的局限性。LeCun 还探讨了机器学习的三种早期模式:监督学习、强化学习和自监督学习,并强调自监督学习在自然语言理解和聊天机器人领域的成功。他认为,要实现与人类水平相当的人工智能,必须让系统去理解真实世界,而不仅仅是文本训练。LeCun 的观点对 AI 的未来发展方向具有重要指导意义。

机器之心
jiqizhixin.com
03-09
13213 字 · 约 53 分钟
92
上海交大张拳石:思维链只是表象,DeepSeek 凭什么更强 | 智者访谈

本文是对上海交通大学张拳石教授的访谈,重点讨论了 AI 可解释性问题。张教授提出了 “等效与或交互” 的神经网络可解释性理论,旨在通过数学符号化的方式解释深度神经网络的内在表征逻辑。他认为,当前大模型的 “思维链” 只是对人类认知的一种拟合,并非真正的推理机制。张教授强调,需要构建自顶向下的 AI 系统,通过可解释性研究来发现问题,从而提升 AI 的可靠性和安全性。该理论在法律判决和自动驾驶等场景中具有应用潜力,有助于解决大模型幻觉、欺骗等问题。此外,他还分享了关于 AI 研究中如何选择 “大问题” 的见解,以及对年轻学者的建议。

deeplearning.ai
deeplearning.ai
03-12
3016 字 · 约 13 分钟
91
DeepSeek-R1 无限制版,QwQ-32B 以更小模型实现卓越推理,及其他

本期 deeplearning.ai The Batch (本期内容) 强调了学习编程的重要性,强调掌握编程技能可以更好地利用人工智能工具,从而产生 10 倍的专业影响力。它介绍了阿里巴巴 (Alibaba) 的 QwQ-32B 模型,该模型通过在数学、编码和一般问题解决中的强化学习,在更小的模型中实现了强大的推理能力,与更大的 DeepSeek-R1 的性能相媲美。此外,它还介绍了微软 (Microsoft) 的 Phi-4 多模态模型,该模型能够同时处理文本、图像和语音,展示了在语音转录方面的领先性能。文章还讨论了多模态模型架构的趋势以及在语音应用中应用基于文本的安全保障措施的重要性。最后,它简要提到了法官在人工智能训练案例中维护版权。

    BestBlogs.dev 精选文章 第 38 期 | BestBlogs.dev