BestBlogs.dev 精选文章第5期

亲爱的朋友们，

👋 欢迎阅读本期 BestBlogs.dev 的精选文章推送！

🚀 本期精选文章聚焦大型语言模型（LLM），带你全方位感受 LLM 的蓬勃发展和巨大潜力，同时，我们也会关注苹果公司在 AI 领域的新动作。

🔥 开源浪潮席卷 LLM 领域！英伟达开源了可媲美 GPT-4 的 3400 亿参数大模型 Nemotron-4 340B，阿里也开源了通义 Qwen2 模型，更有 Stable Diffusion 3 开放下载， LLM 应用门槛大幅降低！

💡 从 AI 智能体、文生视频到图像生成， LLM 不断解锁新的应用场景。快手推出的 "可灵" 模型，让你仅凭文字描述就能生成媲美 Sora 的精彩视频！ Midjourney 推出 "模型个性化" 功能， LLM 个性化时代已经到来！

🍏 WWDC 大会上，苹果发布了 visionOS 2、iOS 18、macOS 15 Sequoia 等六大操作系统更新，并着重展示了长达 40 分钟的 AI 计划。 AI 将深度融入苹果生态，从空间照片到 Apple Intelligence， AI 正在重塑用户体验！

🔍 我们将深入探讨 LLM 高效推理的最新研究成果，解读 "万字综述大模型高效推理" 等技术干货，并关注苹果 AI 战略对未来产业格局的潜在影响。 AI 2.0 时代已经到来， NVIDIA 、苹果等巨头公司之间的竞争也愈发激烈！

好了，让我们开始阅读吧~

这是 Karpathy「Neural Networks：zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了，这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2（1.24 亿参数）」。Karpathy 表示，此次视频之所以这么长，是因为它很全面：从空文件开始，最后得到一个 GPT-2（124M）模型。具体实现步骤包括如下：首先构建 GPT-2 网络。然后对其进行优化，以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和超参数。然后进行模型评估。然后祈祷好运，并去睡觉。第二天早上，查看结果并享受有趣的模型生成。通宵运行的结果甚至非常接近 GPT-3（124M）模型。该视频以「Zero To Hero」系列视频为基础，有些地方参考了以往视频。你可以根据该视频构建 nanoGPT 存储库，到最后大约有 90% 相似。当然，Karpathy 上传了相关的 GitHub 存储库「build-nanogpt」，包含了全部提交历史，这样你可以一步步看到视频中所有的代码变化。

BestBlogs.dev 精选文章第5期

📑 目录

英伟达开源 3400 亿巨兽，98%合成数据训出最强开源通用模型！性能对标 GPT-4o

手搓 AI 智能体实战经验

苹果眼中的 AI OS 应该是怎么样的？

万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

万字干货！手把手教你如何训练超大规模集群下的大语言模型

AIGC 每周更新 #75

图解 Transformer【译文】

最近值得关注的 AI 产品：比肩 Sora 的 Luma、SD3 开源、MJ 新功能

苹果发布会的 AI 悬念：世界将有很多草台班子被摧毁

Karpathy 最新四小时视频教程：从零复现 GPT-2，通宵运行即搞定

硅谷创业教父 Paul Graham：如何获得一个好的创业想法？

苹果 AI 划时代登场：整合 GPT-4o、Siri 全面进化、每个系统都能用

创始人复盘：AI 搜索那么卷，Devv AI 是如何做到月入 3 万美元的？

AI 产品时代提升用户留存率的 7 大方法

大模型“四小龙”激辩 AGI 的未来：价格战可以打，但不能亏本

从零到三万亿：NVIDIA 的史诗崛起

甲小姐对话海纳 AI 梁公军：AI 2.0 核心就是“打穿、打穿、打穿”

BestBlogs.dev 精选文章 第5期

📑 目录

BestBlogs.dev 精选文章第5期