文章
谷歌宣布了代理支付协议 (AP2),这是一个与 60 多家领先的支付和技术组织合作开发的开放标准。该协议旨在解决一个关键挑战:如何安全地验证、确认和传递 AI 代理代表用户进行交易的权限。传统支付系统本身并不支持这种能力,因此 AP2 的出现填补了空白。AP2 通过“指令”(防篡改、加密签名的数字合约,作为用户指令的可验证证明,例如“意图指令”和“购物车指令”)建立信任。这些指令创建了一个不可否认的审计跟踪,确保交易的授权、真实性和问责制。该协议与支付方式无关,支持各种支付类型,包括信用卡、稳定币(通过 A2A x402 扩展)和实时银行转账,旨在防止生态系统碎片化。它有望开启全新的商业体验,如更智能的自动化购物、个性化优惠和协调的多服务预订。谷歌邀请业界合作发展 AP2,技术规范可在 GitHub 上获取。
本文宣布 Google Cloud 的 GKE Inference Gateway 和 GKE Inference Quickstart 正式发布 (GA 版本),显著提升了 AI 模型服务能力。这些解决方案构建于 AI Hypercomputer 之上,旨在优化大型语言模型 (LLM) 推理的性能并降低成本。主要功能包括前缀感知负载均衡,通过智能地路由具有共享前缀的请求,显著改善首个令牌生成时间 (TTFT)。解耦服务通过分离计算密集型预填充和内存密集型解码阶段以实现独立扩展,进一步提高吞吐量。此外,与 Run:ai 模型流和 Anywhere Cache 的集成将模型加载时间缩短了 4.9 倍以上。GKE Inference Quickstart 提供数据驱动的建议,用于优化加速器和配置选择,通过利用广泛的基准测试数据和成本洞察,显著缩短开发人员的评估周期。
本文宣布了 BigQuery ML 的一项重大增强。该增强引入了对谷歌 Gemini 文本嵌入模型的直接支持,以及来自 Hugging Face 的大量超过 13,000 个开源模型的选择。它强调了高质量文本嵌入对于现代 AI 应用(如语义搜索和 RAG)的重要性,并强调了根据质量、成本和可扩展性需求选择多样化模型的重要性。文章对不同的嵌入模型类别进行了比较分析,包括新的 Gemini 和 OSS 选项,详细说明了它们在质量、成本、可扩展性和计费结构上的差异。此外,它还提供了清晰的、逐步的 SQL 示例,用于在 BigQuery 中创建和使用 Gemini 和开源嵌入模型,演示了批量嵌入生成。至关重要的是,文章还包括实用建议,指导如何通过部署和取消部署 Vertex AI 端点,并将此作为持续工作流的一部分来管理 OSS 模型的成本。文章将这些新功能定位为一种使开发者和数据科学家能够直接在其数据所在位置构建高级 AI 应用的方式,从而简化流程并提供前所未有的灵活性。
在不同的硬件和软件堆栈上调试和优化 ML 模型性能对于机器学习工程师来说是一个巨大的挑战。Google 通过开源其核心内部 ML 性能剖析器 XProf 的更新版本以及新的 Cloud Diagnostics XProf 库来解决这个问题。更新后的 XProf 现在在 OpenXLA 下,可在 JAX、PyTorch/XLA 和 TensorFlow/Keras 上提供一致的性能剖析,反映了其超越 TensorFlow 的发展。Cloud Diagnostics XProf 库简化了性能剖析捕获,支持在谷歌云存储中进行长期性能剖析存储,加速了在谷歌计算引擎或谷歌 Kubernetes 引擎上加载大型性能剖析,并有助于轻松共享以进行协作调试。XProf 的主要增强功能包括改进的跟踪、内存、图和 HLO Op 查看器,以及框架操作统计、屋顶线分析、用于多片通信的超大规模统计和 GPU 内核统计等新工具。值得注意的是,它引入了对 Pallas 内核的增强可见性,并支持 NVIDIA GPU 上的 CUDA 图跟踪。这些工具提供了一个端到端的解决方案,用于识别瓶颈、优化内存使用以及深入了解自定义内核性能,从而将 Google 的内部优化功能带给更广泛的 ML 社区。
本文宣布了谷歌数据科学代理在 Colab Enterprise notebooks 中的重要新功能,旨在简化和扩展数据科学和分析工作流程,特别是对于大型数据集。主要更新包括直接支持 BigQuery ML、BigQuery DataFrames (BigFrames)(BigQuery 数据帧)和 Serverless for Apache Spark。用户现在可以通过将特定关键词纳入其自然语言提示 (Natural Language Prompts) 中,来利用这些强大的工具进行数据转换、模型训练和推理。此外,该代理还引入了改进的数据集成功能,允许自动检索 BigQuery 表格的元数据,并方便地使用 @ 提及来搜索当前项目中的表格。这些增强旨在通过减少手动编码并使数据访问更加直观来加速开发,优化也降低了代理的启动延迟。但是,需要注意的是,数据科学代理目前生成 Spark 4.0 代码,并且 BigQuery ML、BigQuery DataFrames 和 Spark 的改进明确声明为“即将推出”到 Vertex AI 中的 Colab Enterprise,尚未立即推出。
本文详细介绍谷歌云的网络连接中心 (NCC),这是一种集中式的轮辐式架构,旨在解决大型企业网络的可扩展性、复杂性和管理挑战。NCC 支持大规模可扩展连接,每个中心最多可连接 250 个 VPC 辐条。它还利用私有服务访问通道 (PSA) 和私有服务连接 (PSC) 等功能,促进平稳的工作负载迁移,并通过自动化全网状连接来减少运营开销。NCC 弹性的核心在于其三个解耦平面架构(管理、控制、数据)和“故障静止”行为,即使在更高级别的平面中断期间,也能确保现有流量持续流动。本文进一步解释了 NCC 如何控制基础设施影响,隔离配置错误以最大限度地减少“影响范围”,并保持不间断的数据流。文章还提供了使用云 VPN 或 PSC 等方法连接多个区域中心的方法,并概述了最大限度地提高网络可用性的最佳实践,包括利用冗余、仔细的拓扑规划、采用基础设施即代码和持续监控。文章最后强调了 NCC 在简化和巩固企业网络中的作用。
本文宣布谷歌云追踪原生支持 OpenTelemetry 协议 (OTLP) 来发送追踪数据。这被定位为新用户和现有用户的推荐最佳实践,特别是对于那些具有高数据量的用户。它强调了关键优势,包括:厂商无关的遥测管道;通过保留 OTel 数据模型实现的强大的数据完整性;提高与各种可观测性后端的互操作性;以及降低客户端的复杂性。本文详细介绍了云追踪如何利用 OpenTelemetry 惯例来获得更丰富的用户体验,并揭示了由于原生 OTel 数据模型,存储限制(例如属性大小、Span 详情、事件/链接计数)得到了显著增加。此外,它概述了谷歌云的更广泛愿景,即将 OpenTelemetry 集成到所有遥测类型(追踪、指标和日志)中,以简化管理,促进厂商中立性,并提供统一且精简的可观测性体验。
本文是对谷歌数据云近期更新的精选摘要,时间跨度从 6 月下旬到 9 月。主要公告包括 Firestore 与 MongoDB 兼容性的全面可用性,为开发者提供灵活性和可扩展性。AlloyDB AI 的自然语言支持、Cloud SQL 中的 AI 辅助故障排除,以及 BigQuery AI 黑客松等,都突显了 AI 集成方面的重大进展。东京数据云发布会等战略性发布,为 AI 驱动的创新提供了更广阔的背景。Cloud SQL 的读取池、企业增强版(Enterprise Plus)的近零停机和增强备份等功能,有效提升了数据库的性能和弹性。改进的 BigQuery“添加数据”体验,以及 Datastream 对 BigLake Iceberg 表的支持,简化了数据摄取和管理流程。Spanner 列式引擎和 BigQuery 软故障转移等新功能,进一步增强了分析和灾难恢复能力。总而言之,这些更新旨在为谷歌云用户提供更强大、更具可扩展性,且由 AI 驱动的数据解决方案。
本文旨在解决高效生成式 AI 推理的挑战,特别是传统 GPU 架构中计算密集型的“预填充”阶段和内存密集型的“解码”阶段之间的资源竞争。文章介绍了一种创新的解耦推理解决方案,将这些阶段在物理上分离到不同的 GPU 池中。该架构利用谷歌云的 AI Hypercomputer。具体来说,它使用了 GKE、带有 NVIDIA H200 GPU 的 A3 Ultra 实例。此外,NVIDIA Dynamo 用于编排和 KV 缓存管理,而 vLLM 则用于实现高性能推理。该方法最大限度地提高了 GPU 利用率,减少了延迟,并显著提高了 LLM 应用程序的吞吐量。GitHub 上提供了一个可重现的配方,方便部署和实验。
本文旨在解决如何量化生成式 AI 计划价值这一关键挑战,而不仅仅是停留在实验阶段。文章介绍了一个由三部分组成的实用框架,专为领导者设计,以确保 AI 项目直接为业务增长做出贡献。第一步是通过识别四个通用业务类别中的“价值驱动因素 (value drivers)”来定义成功:运营效率和成本节约、收入和增长加速、体验和参与以及战略发展和风险缓解。第二步强调透明地指定总拥有成本 (TCO),这不仅包括服务费用,还包括模型训练、基础设施和运营支持。最后,第三步综合这些要素来计算 ROI,为投资提供清晰的商业案例。本文通过一个详细的用例来说明这个框架:实施用于客户服务的 AI 聊天机器人,演示如何量化价值驱动因素(例如,减少代理时间、24/7 销售、改进客户体验/员工体验)并根据 TCO 计算 ROI,从而实现快速回报并获得领导层的认可。