BestBlogs.dev 精选文章 第 27 期

12-06

2593 字 · 约 11 分钟

OpenAI 在连续 12 天的 AI 发布会的第一天，展示了其最新的技术成果。主要内容包括 o1 模型的全面更新和 ChatGPT Pro 订阅服务的推出。o1 模型现在支持多模态输入，能够处理图像和文本，速度和智能都有显著提升。特别是对于复杂问题，o1 模型表现更为出色，尤其是在数学、编程竞赛和 GPQA Diamond 等领域的性能提升明显。ChatGPT Pro 订阅服务每月收费 200 美元，用户可以无限制访问 OpenAI 最先进的模型，包括 o1、o1-mini、GPT-4o 和 Advanced Voice。此外，o1 Pro 模式利用更强大的计算资源，为最复杂的问题提供更优解答。发布会中，Sam Altman 和团队成员 Hyung Won Chung、Jason Wei、Max Schwarzer 详细介绍了 o1 模型的改进和应用场景。他们展示了 o1 在处理历史问题、太空数据中心冷却问题和复杂化学问题上的表现，证明了 o1 在多模态处理和复杂问题解决上的优势。此外，OpenAI 还计划在未来为 o1 模型添加更多工具，如网页浏览、文件上传等，并将其引入 API，为开发者提供更多功能，如结构化输出、函数调用、开发者消息和 API 图像理解。

OpenAI 连续 12 天 AI 发布会：第二天完整视频（中英文双语字幕）

12-06

12076 字 · 约 49 分钟

OpenAI 在连续 12 天的 AI 发布会中，详细介绍了强化微调技术。该技术通过少量数据和强化学习算法，使模型在特定领域（如法律、金融、生物学等）达到专家水平。强化微调技术允许用户在自定义数据集上微调模型，提升推理能力，适用于多个专业领域。OpenAI 展示了该技术在生物信息学中的应用，显著提升了基因识别任务的准确性，并讨论了其在医疗保健等领域的潜在影响。此外，OpenAI 还计划明年初正式发布该技术，并提供给大学师生、研究人员和企业使用。

OpenAI 连续 12 天 AI 发布会：第三天完整视频（中英文双语字幕）

12-09

4081 字 · 约 17 分钟

OpenAI 在连续 12 天的 AI 发布会第三天正式发布了全新的视频生成工具 Sora。Sora 是一款从零开始设计的视频生成产品，支持高达 1080p 分辨率、最长 20 秒的视频生成，并提供文本转视频、图像转视频和视频转视频等多种功能。Sora 还配备了精美的分镜工具，允许用户通过故事板（Storyboard）精准指导视频创作，并提供了丰富的社区内容板块，帮助用户从社区中汲取灵感。Sora 的发布标志着 OpenAI 在视觉生成领域的重大突破，旨在通过 AI 技术增强人类的创造力，并推动人机协作的创作模式。Sora 不仅支持多种视频生成模式，还提供了诸如 Remix、ReCut、Scene Fusion 等高级功能，允许用户在生成视频的基础上进行二次创作和编辑。此外，Sora 还内置了安全措施，确保透明性并防止滥用。Sora 的发布得到了 OpenAI CEO Sam Altman 的高度评价，他认为 Sora 不仅是一个工具，更是创作者的延伸，能够帮助用户快速尝试多个想法，实现以前难以想象的创作方式。Sora 的发布也展示了 OpenAI 在通用人工智能（AGI）路线图中的重要一步，视频生成将成为 AI 理解和模拟世界的重要环境。

OpenAI 连续 12 天 AI 发布会：第四天完整视频（中英文双语字幕）

12-10

2688 字 · 约 11 分钟

在 OpenAI 连续 12 天的 AI 发布会第四天，OpenAI 宣布了 Canvas 的三个新功能，旨在进一步提升用户与 ChatGPT 的协作体验。首先，Canvas 现在面向所有用户开放，并直接集成到主模型中，用户无需额外加载步骤即可使用。其次，Canvas 支持在界面中运行 Python 代码，并实时查看文本或图形输出，极大地简化了编程过程中的调试和反馈流程。第三，Canvas 功能被引入到定制 GPT 中，使得用户在 GPT Store 上创建的定制化 GPT 能够充分利用 Canvas 的强大功能。这些更新不仅适用于写作，还扩展到了编程领域，用户可以在同一个界面中生成、运行和调试代码，获得即时反馈。此外，Canvas 的引入使得与 ChatGPT 的协作更加高效，特别是在文档编辑和代码调试方面。通过这些新功能，OpenAI 希望用户能够更轻松地创作内容、编写代码和构建定制模型。

OpenAI 连续 12 天 AI 发布会：第五天完整视频（中英文双语字幕）

12-11

2005 字 · 约 9 分钟

OpenAI 在连续 12 天的 AI 发布会中，第五天的主题是展示 ChatGPT 与苹果设备的深度集成。这次集成主要体现在 Siri 集成、写作工具和视觉智能功能上，旨在让用户在 iPhone、iPad 和 Mac 上更便捷地使用 ChatGPT。通过 Siri，用户可以直接将复杂问题交给 ChatGPT 处理，而写作工具则增强了文档处理能力，包括从零开始起草文档。视觉智能功能则允许用户通过摄像头与 ChatGPT 互动，例如评估节日毛衣的创意度。此外，ChatGPT 的集成还支持跨设备同步，用户可以在不同设备上无缝继续对话。这次发布展示了 OpenAI 在提升用户体验和技术创新方面的努力，特别是在 AI 与硬件设备的深度融合上。

刚刚，OpenAI Sora 正式炸裂登场，网页挤爆了！

12-10

2579 字 · 约 11 分钟

OpenAI 在经过近 10 个月的开发后，正式发布了视频生成大模型 Sora 的完整版本。Sora 是一款基于扩散模型的视频生成工具，能够根据文本、图像和视频输入生成高质量的视频内容，支持 1080p 分辨率、最长 20 秒的视频生成，并提供多种编辑功能，如 Remix、Re-cut、Storyboard、Loop 和 Blend 等。Sora 的发布被视为视频生成领域的重大突破，类似于 GPT-1 在文本生成领域的地位。Sora 不仅能够生成全新的视频内容，还能对现有视频进行扩展、修改和融合，极大地提升了用户的创意表达能力。此外，Sora 还提供了全新的界面和故事板工具，使用户能够更精准地控制视频生成的每个细节。Sora 的发布引发了广泛关注，被认为是 AI 技术在视频生成领域的里程碑，未来有望在影视制作、广告、游戏等多个领域得到广泛应用。

OpenAI 12 连发第 2 弹：强化微调，少量样本就能训练自己的专家模型

12-07

2350 字 · 约 10 分钟

OpenAI 在其 12 天连续发布计划中，推出了强化微调（Reinforcement Fine-Tuning, RFT）技术。该技术允许开发者使用强化学习针对具体任务对模型进行进一步的微调，并根据提供的参考答案对模型的响应进行评分。通过这种技术，模型不仅能够模仿输入，还能在特定领域以新的方式进行推理。文章详细介绍了强化微调的实现过程，包括训练数据集的准备、验证数据集的使用、评分器的设计以及超参数的调整。示例展示了如何通过强化微调将较小规模的模型（如 o1-mini）训练成在特定任务上表现优于更大规模模型的专家模型。此外，文章还提到了强化微调在法律、金融、工程等领域的应用潜力，并强调了该技术在罕见疾病诊断等复杂任务中的实际价值。

ChatGPT「睁眼」了！OpenAI 版「Her」满血上线，还有圣诞限定彩蛋

新智元

12-13

3712 字 · 约 15 分钟

OpenAI 在时隔 7 个月后，正式推出了 ChatGPT 的多模态功能更新，包括视频聊天和屏幕共享功能，并推出了圣诞老人限定语音，为用户带来了更加沉浸式的互动体验。视频聊天功能允许用户通过摄像头与 ChatGPT 进行实时视频对话，而屏幕共享功能则让 ChatGPT 能够处理屏幕上的内容，帮助用户进行实时操作指导。此外，圣诞老人限定语音为整个功能更新增添了节日气氛，用户可以通过 ChatGPT 与圣诞老人进行对话，体验节日乐趣。文章还展示了 ChatGPT 在多模态功能上的实际应用，如通过视频教学手冲咖啡，以及通过屏幕共享帮助用户回复消息。这些功能不仅增强了 ChatGPT 的实用性，还提升了用户的互动体验。然而，文章也提到，尽管 OpenAI 的更新令人印象深刻，但与谷歌的 Gemini 2.0 相比，功能上显得较为保守，尤其是在实时视频和多模态处理方面，谷歌的产品被认为更接近 AGI（通用人工智能）。总体而言，OpenAI 的这次更新展示了其在多模态 AI 领域的进步，尤其是在增强用户体验和互动性方面，但与谷歌的竞争依然激烈。

今天，ChatGPT 升级为生产力工具：Canvas 全量开放，人+AI 协作模式启动

12-11

1446 字 · 约 6 分钟

今天，ChatGPT 升级为生产力工具：Canvas 全量开放，人+AI 协作模式启动

OpenAI 在 12 月 11 日发布了 ChatGPT 的重大更新，正式将 Canvas 功能全量开放，标志着 ChatGPT 从聊天工具升级为生产力工具。Canvas 的引入使得用户可以与 ChatGPT 进行更深度的协作，涵盖写作、编程和审稿等多个领域。此次更新主要包括三个主要变化：Canvas 全面整合进 ChatGPT 主要功能中，提升了代码功能并支持直接运行 Python 代码，以及允许 Customgpt 调用 Canvas。在 20 分钟的直播演示中，OpenAI 展示了四种 Canvas 的玩法，包括编辑文字、审稿、编程和图片识别功能，展示了 AI 在生产力提升中的巨大潜力。

深度理解：OpenAI 最新发布的“强化微调”

人人都是产品经理

woshipm.com

12-10

3613 字 · 约 15 分钟

本文详细介绍了 OpenAI 最新发布的“强化微调”（RFT）技术，旨在帮助开发者更高效地微调模型，提升模型的性能和应用效果。文章首先对比了传统 SFT（监督微调）与 RFT 的区别，指出 RFT 通过整合 SFT、奖励模型和强化学习，形成了一个自动化的闭环优化流程，能够动态迭代和优化基础模型，使其越来越聪明。与传统的 SFT+奖励模型+强化学习（RLHF）相比，RFT 在数据需求、动态优化和自动化运行方面有显著优势。文章进一步分析了 RFT 的应用价值，指出微调技术有助于开发者更好地利用现有模型能力，并将大模型落地于具体应用场景。通过 OpenAI 官网，开发者可以轻松创建和微调模型，降低微调成本和门槛。此外，文章还探讨了 RFT 对企业应用的潜在影响，并以作者的创业产品为例，展示了 RFT 在提升研报生成效果方面的应用前景。最后，作者分享了对当前大模型发展方向的思考，认为强化学习和微调技术将是未来模型能力提升的关键。

谷歌 Gemini 2.0：面向自主代理时代的新一代 AI 模型

Google DeepMind Blog

deepmind.google

12-11

2276 字 · 约 10 分钟

谷歌 DeepMind 发布了 Gemini 2.0，这是其 AI 模型的重大升级，旨在服务于“自主代理时代”。该模型在 Gemini 1.0 和 1.5 的基础上进行了改进，重点增强了多模态能力（包括原生图像和音频输出）并引入了原生工具使用功能。Gemini 2.0 旨在创建能够理解周围环境、进行多步思考并代表用户采取行动的人工智能代理，所有操作均在用户监督下进行。其关键特性包括实验性的 Gemini 2.0 Flash 模型、深度研究项目以及 Astra 项目、Mariner 项目和 Jules 等原型。在整个开发过程中，安全和责任始终被置于首位，谷歌 DeepMind 进行了广泛的风险评估、安全培训，并与外部专家合作。文章最后总结了谷歌 DeepMind 对负责任地发展 AI 的承诺，并表示将继续努力，朝着通用人工智能 (AGI) 的目标迈进。

OpenAI 深夜被狙，谷歌 Gemini 2.0 掀翻牌桌！最强智能体组团击毙 o1

新智元

12-12

5989 字 · 约 24 分钟

OpenAI 深夜被狙，谷歌 Gemini 2.0 掀翻牌桌！最强智能体组团击毙 o1

谷歌在最新发布会上推出了新一代原生多模态模型 Gemini 2.0 Flash，这一模型的发布标志着智能体时代的全面到来。Gemini 2.0 Flash 不仅在性能上超越了前代模型，还在多模态交互、编码能力、推理速度等方面取得了显著进展。谷歌还展示了基于 Gemini 2.0 的一系列智能体应用，包括通用 AI 助手 Project Astra、浏览器交互智能体 Project Mariner、开发者代码助手 Jules、游戏辅助智能体和机器人智能体。这些智能体展示了多模态交互、复杂任务处理和实时响应的能力，预示着 AI 在日常生活、开发工作和娱乐中的广泛应用前景。

欢迎 PaliGemma 2 – 谷歌的新视觉语义模型

Hugging Face Blog

huggingface.co

12-05

1718 字 · 约 7 分钟

谷歌发布了 PaliGemma 2，这是其视觉语义模型的最新迭代版本，采用了升级的 Gemma 2 文本解码器并保留了强大的 SigLIP 图像编码器。该模型提供三种参数大小（3B、10B 和 28B）和三种输入分辨率（224x224、448x448 和 896x896），适用于多样化的应用场景。PaliGemma 2 设计用于轻松微调，并在多样化的数据集上进行了预训练，能够高效适应各种下游任务。谷歌还在 DOCCI 数据集上发布了微调变体，展示了详细的和细微的标注能力。此次发布包括开源模型库、transformers 集成、微调脚本和一个视觉问答的演示。

新版 Llama 3 70B 反超 405B！Meta 开卷后训练，谷歌马斯克都来抢镜

量子位

qbitai.com

12-07

1455 字 · 约 6 分钟

新版 Llama 3 70B 反超 405B！Meta 开卷后训练，谷歌马斯克都来抢镜

本文报道了 Meta 和谷歌在 AI 大模型领域的最新动态。Meta 发布了 Llama 3.3 70B 版本，通过后训练技术的最新进展，实现了超越 Llama 3.1 405B 的性能，特别是在指令遵循、数学和推理等领域。此外，Llama 3.3 的使用成本显著低于 Llama 3.1 405B，最便宜的价格是 0.1/0.4 美元每百万输入/输出 Token，而 Llama 3.1 405B 则是 1 美元每百万输入 Token 和 1.8 美元每百万输出 Token。Meta 生成式 AI 团队领导者 Ahmad Al-Dahle 指出，这一进步主要归功于在线偏好优化等后训练技术的应用。另一方面，谷歌的 Gemini 1206 版本在 lmsys 大模型竞技场的多个单项排名中夺冠，包括困难提示词、代码、数学和创意写作等。然而，谷歌首席科学家 Jeff Dean 也承认，OpenAI 即将发布的 GPT-4.5 可能会再次夺走 Gemini 的榜首位置。此外，马斯克的 xAI 也被盛传即将发布 Grok 3，而 Grok 2 mini 的消失被视为 Grok 3 即将发布的征兆。

AI Coding 最全图谱：Agent 将如何颠覆软件

海外独角兽

developers.googleblog.com

12-10

7443 字 · 约 30 分钟

本文从多个角度全面分析了 AI Coding 领域的现状和未来发展趋势。首先，文章指出 LLM 作为推理引擎，在 coding 领域展现出显著的能力提升，尤其是从 copilot 到 agent 的进化路径。接着，文章通过分类坐标系详细探讨了不同 AI coding 产品的市场定位和应用场景，特别是 Copilot 和 Agent 在专业开发者和普通用户中的应用前景。随后，文章深入分析了 Cursor 和 Codeium 在 AI Coding 领域的不同策略，强调了用户体验、企业级需求和研究方向的差异。此外，文章还讨论了 Coding Agent 和 Coding Model 的发展现状和挑战，特别是在企业中的应用，如 code migration 和 code refactoring。最后，文章展望了软件工程的民主化趋势，提出了 AI 驱动的 coding 工具如何降低开发门槛，推动 citizen developer 的崛起。

开发者：双子座时代的下一个篇章

Google Developers Blog

12-11

1329 字 · 约 6 分钟

谷歌发布了 Gemini 2.0 闪速版，标志着 Gemini 时代的全新篇章。这一重大升级旨在帮助开发者更高效地构建尖端 AI 应用。自 2022 年 12 月 Gemini 1.0 发布以来，数百万开发者已通过谷歌 AI 工作室和 Vertex AI 在 109 种语言中构建应用。Gemini 2.0 闪速版引入了多项新功能，包括：性能提升（速度是 Gemini 1.5 专业版的两倍）、全新的多模态输出、原生工具支持以及用于实时音视频流的多模态实时 API。Gemini 2.0 闪速版的关键改进包括：速度提升，文本、代码、视频和空间理解能力增强；通过单个 API 调用集成文本、音频和图像输出；原生支持 Google 搜索和代码执行；以及支持音视频流输入的实时多模态应用。此外，谷歌还推出了名为 Jules 的 AI 编码助手，它可以异步处理错误修复和其他编码任务，从而提升开发效率。另一个亮点是 Colab 的数据科学代理，它能够根据自然语言指令自动生成 Jupyter 笔记本，显著缩短数据分析时间。谷歌计划将 Gemini 2.0 集成到 Android Studio、Chrome 开发者工具和 Firebase (谷歌云平台后端服务) 等平台，并通过谷歌 AI 工作室和 Vertex AI 提供早期访问权限。

阿里 LangEngine 开源了！支撑亿级网关规模的高可用 AI 应用框架

阿里技术

12-12

4555 字 · 约 19 分钟

阿里技术团队开源了 LangEngine，这是一个基于 Java 的高可用 AI 应用开发框架，已经在阿里集团内部广泛应用于淘宝、天猫、阿里云等多个业务场景。LangEngine 支持亿级网关规模的 AI 应用，具备高效的流式处理、多级缓存、异步化任务调度等特性，能够有效提升 AI 应用的性能和稳定性。文章详细介绍了 LangEngine 的架构设计、核心处理单元、流式与非流式输出、元数据多级缓存等技术细节，并分享了其在高并发场景下的实践经验。此外，LangEngine 还支持社区共建，未来计划开源更多模块，如 AgentFramework、Multi-Agent 框架等，进一步推动 AI 应用的智能化和高效化发展。

如何使用 Gemini API 构建视频字幕生成器

freeCodeCamp.org

freecodecamp.org

12-11

2781 字 · 约 12 分钟

本文提供使用 Google Gemini API 创建 AI 驱动的视频字幕生成器的完整教程。该项目采用 React 前端和 Express 后端，是一个全栈应用。教程首先解释如何从 Google AI Studio 获取 API 密钥，这是向 Gemini API 发送身份验证请求的关键。然后，指导读者设置项目，包括创建前端和后端的必要文件夹。前端设置包括使用 Vite 创建基本的 React 应用，处理文件上传，以及准备应用将视频文件发送到后端。后端设置包括初始化 Express 服务器，配置必要的包（如 express-fileupload 和 @google/generative-ai），以及设置环境变量以安全地管理 API 密钥。本文还介绍如何在服务器上处理文件上传、与 Gemini API 交互以及生成 SRT 格式的字幕。教程强调将后端代码组织成单独的文件夹以提高可维护性和可读性。它还解释如何将文件上传到 Google AI 文件管理器，检查文件的处理状态，并将文件 URI 传递给 Gemini 模型以生成字幕。最后，前端更新为将视频数据发送到后端，接收生成的字幕并触发 .srt 文件的下载。

【万字解析】究竟什么才算是 AI Native 应用：下一代企业级软件的五维评估框架

随机小分队

12-09

9709 字 · 约 39 分钟

【万字解析】究竟什么才算是 AI Native 应用：下一代企业级软件的五维评估框架

本文详细分析了 AI Native 应用的概念及其在未来企业级软件中的核心地位。文章首先定义了 AI Native 应用，强调 AI 是其体验的核心，而非辅助功能，并指出 AI Native 应用具有智能飞轮效应，随着底层模型性能提升和数据积累，产品体验会更好。接着，文章提出了一个五维评估框架，包括产品设计、交互方式、反馈机制、系统构建和数据管理，强调这些维度在企业级软件中的重要性。文章进一步探讨了生成式 AI 技术对未来软件开发的影响，指出多模态生成式 AI 模型在追赶基于文本的模型方面取得了显著进展，为开发者重新构想软件使用方式提供了广阔空间。此外，文章还讨论了 AI Native 应用在数据管理方面的核心优势，包括端到端数据管理能力的建设，以及生成式 AI 通过多模态交互数据、AI 内容创作的元数据分析等，开辟了数据采集的新方式，构建全新的专有数据资产。最后，文章展望了 AI Native 应用的发展趋势，包括多模型协调优化、个性化用户体验、动态内容生成、多层次个性化服务以及新的定价模式。文章强调，AI Native 应用需要彻底的重新创新，而不仅仅是现有产品的功能升级，未来的企业软件将更加无缝、多模态，并且 AI Agent 将深度参与决策和执行。

微软「AI 伴侣」Copilot Vision，让你用嘴浏览网页，还能和你一起打游戏

12-06

1397 字 · 约 6 分钟

微软「AI 伴侣」Copilot Vision，让你用嘴浏览网页，还能和你一起打游戏

微软在 OpenAI 发布重大更新的同时，推出了名为 Copilot Vision 的 AI 助手，该产品集成在 Edge 浏览器中，旨在为用户提供实时协作上网的体验。Copilot Vision 能够理解用户在线活动的上下文，与用户一起阅读网页内容，并进行讨论，从而改变传统的孤独浏览体验。该产品目前仅对部分 Pro 版订阅者开放。Copilot Vision 的核心功能包括：理解网页文本、识别图片内容、提供个性化建议（如旅行规划、购物推荐），并能协助用户学习新游戏。微软 AI CEO Mustafa Suleyman 在接受采访时强调，Copilot Vision 的目标是成为用户的「AI 伴侣」，能够记忆用户的行为、理解用户的兴趣，并提供类似人类交流的体验。在技术实现上，Copilot Vision 包含三个主要组件：底层大型语言模型（LLM）、即时读取网页文本的能力，以及多模态理解图片内容的功能。Suleyman 还展望了未来十年，认为 AI 助手将成为人们生活的重要组成部分，不仅仅是交互接口，而是新的数字种族，类似于家庭成员或第二大脑。微软在开发 Copilot Vision 时，特别强调了隐私安全，用户可以自主选择启用或关闭该功能，且所有会话数据在结束后会被删除，确保用户数据的安全和隐私。

2024 SaaS 年度观察：AI 到底是「杀死」了 SaaS，还是「改造」了 SaaS？

Founder Park

12-06

10983 字 · 约 44 分钟

2024 SaaS 年度观察：AI 到底是「杀死」了 SaaS，还是「改造」了 SaaS？

本文深入探讨了 2024 年 AI 对 SaaS 行业的全面影响，分析了 AI 如何改变软件采购决策、GTM 策略、产品设计和定价模式。文章指出，AI 正在推动 SaaS 公司进行创新和转型，要求公司重新思考如何服务客户和定位产品价值。AI 通过降低创作门槛和提升生产效率，显著改变了专业和半专业用户的创作方式。同时，AI 通过模块化方式提高了 SaaS 公司的收入和客户粘性，特别是在企业级客户中表现显著。此外，AI 的引入使得 SaaS 公司更加注重产品的深度和独特性，而非仅仅追求增长。文章还讨论了 AI 在不同地理市场的应用潜力和 AI 产品在传统行业的落地挑战，强调了 AI 在提升 SaaS 产品价值和客户体验方面的作用。最后，文章指出 AI 公司实现高收入的速度显著快于传统 SaaS 公司，AI 正在重塑企业软件行业，推动企业从早期采用者转变为领导者，并释放大量工作岗位。

150 亿美元估值、从 20 日活到 2 亿月活，Discord 做对了什么?

Founder Park

The Keyword (blog.google)

12-11

13183 字 · 约 53 分钟

本文详细介绍了 Discord 从 20 个日活用户增长到 2 亿月活用户的历程，创始人 Jason Citron 分享了其增长策略、团队管理经验以及 AI 对游戏行业的影响。Discord 通过邀请用户反馈而非推销产品，实现了用户数量的突破性增长，并成为 AI 应用「Build in public」的最佳场所。Jason Citron 讨论了 AI 对游戏行业的深远影响，包括降低游戏制作门槛、改变商业模式和提升玩家互动体验。他还分享了 Discord 在扩展过程中遇到的挑战，尤其是从 200 人扩展到 1000 人时的管理失误，并通过调整管理方式重新掌控公司方向。此外，Jason Citron 强调了异步反馈方式在提高团队效率中的作用，并分享了他在高管招聘和 CEO 决策中的经验。最后，他讨论了教育改革的方向，强调动手解决问题和创造性思维的重要性，并介绍了参与的在线教育项目 Campus。

2024 年我们最喜欢的 24 个 AI 技巧

blog.google

12-12

1619 字 · 约 7 分钟

谷歌博客“关键词”发布文章，全面概述了 2024 年谷歌推出的 24 个 AI 驱动功能和技巧，这些技巧涵盖节省时间、规划、学习和创造四个方面。每个技巧都展示了 AI 如何融入日常任务，提升效率和创造力。例如，Gemini 的“询问此屏幕”功能允许用户在安卓屏幕上即时获取内容帮助；Pixel 9 手机的“通话笔记”功能可生成 AI 总结的通话记录。其他亮点功能包括谷歌购物的虚拟试穿、Gemini 的互动学习测验以及谷歌相册的 AI 照片编辑工具。文章还强调了 AI 的个性化能力，例如自定义 Gemini 以记住用户偏好，并创建针对特定需求的专属“Gems”智能助手。总而言之，本文展示了谷歌 AI 创新及其在各种产品中的实际应用。

赫拉利对话李开复（全程视频+实录）：当 AI 比人更聪明，我们还剩什么？｜独家首发

腾讯科技

12-12

12546 字 · 约 51 分钟

赫拉利对话李开复（全程视频+实录）：当 AI 比人更聪明，我们还剩什么？｜独家首发

本文记录了尤瓦尔·赫拉利与李开复的对话，深入探讨了生成式 AI 对人类社会的深远影响。对话从 AI 对信息网络的控制权挑战开始，指出 AI 不仅改变了信息处理方式，还逐渐接管了人类在决策和协作中的主导地位。赫拉利和李开复特别强调了 AI 在金融、军事等领域的应用，以及可能带来的伦理和控制权问题。他们认为，AI 的快速发展不仅改变了社会肌理，还促使人类重新思考人性的本质，尤其是在意识、情感和关怀方面的重要性。此外，对话还涉及 AI 的潜在危害，如恶意使用和奖励函数设计不当，以及 AI 在社交媒体和金融市场中可能引发的危机。最后，赫拉利呼吁全球范围内更多人参与 AI 讨论，以确保未来决策的明智性和公平性。

深度｜AI 教父 Geoffrey Hinton：数字智能会取代生物智能么？

人人都是产品经理

woshipm.com

12-10

9639 字 · 约 39 分钟

在 Remarkable 2024 大会上，AI 教父 Geoffrey Hinton 深入探讨了数字智能是否会取代生物智能这一核心问题。文章首先介绍了 Hinton 提出的“凡人计算”概念，主张研发低功耗的模拟系统以实现更高效的计算，并讨论了数字计算与模拟计算的效率对比。接着，Hinton 探讨了大型语言模型在知识转移和理解能力上的优势，指出这些模型通过多个副本之间的知识共享，能够比人类更高效地获取和存储知识。文章进一步讨论了人类记忆与 AI 模型中的幻觉现象的相似性，指出两者都存在编造信息的情况，并强调 AI 模型的工作方式与人类理解方式非常相似。Hinton 还警告了超级智能 AI 的潜在威胁，认为它们可能通过竞争资源而失控，并呼吁全球聚焦于让 AI 系统变得友善，同时建议不公开发布大模型以控制风险。最后，Hinton 讨论了 AI 与人类对齐的挑战、AI 是否拥有目的、进化与生存的关系，以及机器学习硬件市场的现状和未来竞争。

谷歌 Willow 量子芯片逆天出世！5 分钟颠覆 10 亿亿亿计算极限，马斯克奥特曼惊叹

新智元

12-10

4665 字 · 约 19 分钟

谷歌 Willow 量子芯片逆天出世！5 分钟颠覆 10 亿亿亿计算极限，马斯克奥特曼惊叹

谷歌量子 AI 团队近日发布了全新的量子芯片 Willow，该芯片拥有 105 个量子比特，在量子纠错和随机电路采样等基准测试中表现出色。Willow 的最大亮点在于其突破了困扰量子计算近 30 年的纠错问题，实现了误差率的指数级下降。通过将量子比特分组协同工作，Willow 成功实现了「低于阈值」的误差纠正，这是量子计算领域追求了近 30 年的里程碑。在随机电路采样（RCS）基准测试中，Willow 仅用不到 5 分钟（300 秒）就完成了当今世界上最快超级计算机 Frontier 需要 10 亿亿亿年才能完成的任务。这一成就不仅展示了量子计算的巨大潜力，还为未来的量子计算应用打开了大门，尤其是在药物发现、核聚变、电池设计等领域。谷歌量子 AI 团队的研究成果已发表在《Nature》期刊上，标志着量子计算从理论走向实践的重要一步。Willow 的成功不仅为量子计算的商业化铺平了道路，还为未来的量子计算扩展提供了坚实的基础。

谷歌发布跨时代量子芯片 Willow，5 分钟顶超算 10²⁵年，马斯克、奥特曼点赞

腾讯科技

12-10

1647 字 · 约 7 分钟

谷歌发布跨时代量子芯片 Willow，5 分钟顶超算 10²⁵年，马斯克、奥特曼点赞

谷歌在 12 月 9 日发布了最新的量子芯片 Willow，这一突破性成果在科技界引起了广泛关注，并获得了马斯克、奥特曼等科技大佬的点赞。Willow 芯片解决了量子计算领域近 30 年来未攻克的关键难题，特别是在量子纠错方面取得了显著进展。通过增加量子比特数量，Willow 能够以指数级的方式减少错误率，这一成果标志着量子计算从理论走向实际应用的重要一步。在性能测试中，Willow 芯片在不到 5 分钟内完成了一项需要当今最快超级计算机花费 10²⁵ 年才能完成的计算任务，展示了量子计算的强大潜力。谷歌 CEO Sundar Pichai 将 Willow 视为迈向实用量子计算机的重要一步，并展望了其在人工智能训练、新药研发、新能源技术等领域的广泛应用。尽管 Willow 的量子计算能力尚未达到破解比特币加密算法的要求，但其发布仍然引发了关于量子计算对加密技术潜在影响的讨论。

字节在跳动，阿里在躁动，AI 六小龙被震动｜与「晚点」复盘大模型这一年的激战

十字路口Crossing

12-12

23645 字 · 约 95 分钟

本文通过多个段落深入分析了 2024 年中国大模型领域的竞争格局，特别是巨头公司与创业公司之间的竞争态势。文章指出，字节跳动和阿里巴巴等巨头在大模型领域的快速崛起，使得创业公司曾经的优势（如组织灵活性和技术团队更强）逐渐减弱。技术进化速度成为决定创业公司能否保持竞争优势的关键因素，尤其是在技术判断和模型应用一体化方面。文章还讨论了大模型发展放缓可能带来的影响，包括产品能力的重要性提升、轻量级公司的竞争压力以及融资环境的变化。开源模型的兴起给闭源模型公司带来了压力，尤其是那些依赖闭源模型融资的公司。此外，文章详细介绍了多家大模型创业公司（如 Kimi、MiniMax、零一、智谱、阶跃、百川）的最新动态和策略，分析了它们在 To C 和 To B 领域的布局，以及生产力场景和医疗场景的应用。字节跳动和 MiniMax 在 AI 产品开发上的不同策略也被重点讨论，显示出两家公司在产品目标和市场策略上的差异。最后，文章回顾了大模型创业公司面临的挑战，特别是在技术和商业化方面的困境，以及从大模型公司出来创业的现象。

「让我们快速到达下一个失败」：AI 时代的增长黑客修炼指南 | 对话王博龙

十字路口Crossing

12-08

16254 字 · 约 66 分钟

本文以王博龙在 AI 产品增长方面的实战经验为主线，详细介绍了从大厂到自主创业的增长策略转变。文章首先强调了增长黑客的心态和方法论在 AI 产品快速迭代中的重要性，特别是在资源有限的情况下如何利用微信和人脉资源进行裂变增长。接着，文章探讨了在小红书等平台上的获客策略，以及通过短视频和公众号投放实现用户增长和付费转化的具体操作。此外，文章还对比了大厂和创业环境下的增长实践差异，强调了创业环境下的快速迭代和深度用户连接。最后，文章讨论了 AI 在音乐、文本生成等领域的应用，以及如何通过创新功能和用户体验实现产品增长，特别是在降低发布门槛和提升互动性方面的潜力。

AI 共生时代，将如何改变我们？

笔记侠

12-07

7038 字 · 约 29 分钟

文章从 AI 的发展历程出发，探讨了从科学时代到共生时代的转变。首先，文章强调了语言处理能力在 AI 发展中的关键作用，认为 ChatGPT 的出现标志着强人工智能的到来。接着，文章讨论了 AI 在生命科学、心理学、神经科学等领域的应用前景，指出大模型技术作为智能时代的基础设施，将推动生产力升级，并创造数字人员工，改变工作方式。此外，文章还探讨了强化学习对大模型思考能力的提升，以及 AI 在医疗领域的应用，特别是通过 AI 医生解决医疗资源不足的问题，并展望了未来医疗服务的变革。最后，文章提到了 AI 在提高企业效率、为个人提供服务等方面的潜力。

万千流变，一如既往：2024 人工智能产业 30 条判断｜甲子光年

甲子光年