快讯蜂巢
快讯蜂巢

谷歌拟推专用推理芯片:十年磨一剑,TPU正全方位挑战英伟达霸主地位

快讯蜂巢 1

谷歌芯势力崛起:直面向英伟达发起挑战

谷歌正在将其自研芯片业务推向一个全新的竞争高度。这次他们不仅仅是要做个配角,而是计划推出专门针对 AI 推理任务打造的定制芯片。要知道,在此之前谷歌已经先后与 Meta 和 Anthropic 达成了大规模合作协议,这一系列动作背后的意图很明显:就是要进一步向英伟达的市场主导地位发起挑战

新一代 TPU 即将亮相,专注推理效率

据彭博社的消息,谷歌计划本周在拉斯维加斯的 Google Cloud Next 大会上,正式发布新一代张量处理单元(TPU)。这可不是简单的硬件迭代,而是战略重心的转移。谷歌首席科学家 Jeff Dean 在接受采访时说得很直白,随着大家对 AI 查询快速处理需求的上升,“针对训练或推理工作负载对芯片进行更专门化的设计,现在已经是合理之举。” 这句话释放了一个重要信号,未来的芯片设计将呈现以下趋势:

1. 场景专用化:不再追求单一芯片全能,而是针对特定负载优化。

2. 效率优先:重点解决 AI 查询快速处理的痛点。

3. 生态整合:芯片将更紧密地结合云服务基础设施。

市场格局生变:从训练到推理的战场迁移

这一布局正值 AI 芯片市场格局加速演变之际。不可否认,英伟达的 GPU 目前仍是 AI 领域、尤其是模型训练环节的行业标杆,地位稳固。但是,推理市场的争夺正日趋激烈,这里才是各大巨头接下来要拼刺刀的地方。市场研究机构 Gartner 的分析师 Chirag Dekate 就指出,“战场正向推理方向转移,而在这一战场上,谷歌拥有基础设施优势。” 这意味着,谷歌不仅仅是在卖芯片,更是在售卖其庞大的云服务基础设施能力。

总结:谷歌的底气与未来展望

总的来说,谷歌此次发力并非偶然。通过软硬结合,加上已经搭建好的云服务生态,谷歌有信心在推理侧分走英伟达的一大块蛋糕。对于整个行业而言,这种竞争将加速 AI 芯片的专用化进程,最终受益的将是所有需要高效、低成本 AI 算力的企业和开发者。谷歌这一步棋,走得相当精准。

从内部利器到行业标杆:谷歌 TPU 的破圈进化论

咱们回过头看,谷歌在芯片制造这条路上,已经默默走了超过十年。这段历程的起点,其实特别朴实,就是为了解决一个实际痛点:谷歌当时的语言翻译和语音识别服务急需算力支撑,但市面上能买到的芯片和硬件,要么性能不够,要么成本根本扛不住。

TPU 背后的核心理念,用负责人 Vahdat 的话来说,就是“解决一小部分问题,但这些问题所需的计算量是巨大的”。要知道,在当时的主流观点看来,为了这种特定场景专门开发定制硬件并不划算,但谷歌选择了逆势而为。在这一阶段,谷歌的芯片研发与其 AI 模型工作始终保持着紧密的协同演进关系,这种“自研自用”的模式为后来的爆发埋下了伏笔。

软硬协同:从内部打磨到技术突围

2017 年那篇催生了当代大语言模型的里程碑式研究论文,是一个关键转折点。它推动 TPU 团队将重心转向服务于更大规模 AI 系统训练的芯片设计。此后,谷歌 DeepMind 与芯片团队又注意到,TPU 在执行强化学习任务时存在大量闲置浪费,并据此调整了芯片之间的网络互联方式,以加快数据流转、避免算力空转。

这种内部反馈机制也带来了对“硬件级错误”更强的把控能力。谷歌科学家、Gemini 基础设施团队联合负责人 Paul Barham 透露,当 AI 加速芯片在处理海量数学运算时,一个细微的故障都可能蔓延并导致模型“彻底崩溃”。他说:“现在我们能在 10 秒内完成对数十万枚加速芯片的排查。”这种效率,是通用硬件很难企及的。

商业爆发:大客户接连入场,生态壁垒消融

谷歌芯片业务的商业突破同样来得迅猛。去年 10 月,Anthropic 宣布扩大与谷歌的合作协议,将获取多达 100 万枚 TPU;随后谷歌发布的 Gemini 模型获得广泛好评,该模型正是基于 TPU 进行训练和运行。此后,需求持续扩大,商业势能正在快速积聚。

目前的市场动态非常能说明问题:

1. 巨头加码:Meta 已签署一项价值数十亿美元、为期数年的 TPU 云服务协议。Meta 基础设施负责人 Santosh Janardhan 表示,“看起来在推理方面可能存在优势”,但也坦诚“新平台免不了有门槛和学习曲线”。

2. 金融与云厂商跟进:对冲基金公司 Citadel Securities 计划在本次谷歌大会上分享其借助 TPU 实现比此前 GPU 方案更快模型训练速度的经验。阿布扎比科技集团 G42 旗下云业务 Core42 的临时 CEO Talal Al Kaissi 表示,已与谷歌就 TPU 使用进行“多轮磋商”,并对此持乐观态度。

3. 软件生态补强:谷歌已允许 TPU 客户使用 PyTorch 等外部工具及第三方调度软件,不再要求完全依赖谷歌自有产品;与此同时,谷歌还在测试允许 Anthropic 等合作方将部分 TPU 部署于自有数据中心而非谷歌设施。

格局再平衡:英伟达的应战与谷歌的底气

面对谷歌的进逼,英伟达并非毫无回应。上月,英伟达推出了一款基于其收购自 Groq 的技术所开发的推理芯片。黄仁勋强调其芯片的多用途优势,表示能够完成“大量 TPU 无法胜任的应用”。事实上,谷歌自身在实际部署中也同时依赖 TPU 与 GPU 两种芯片。谷歌 DeepMind CEO Demis Hassabis 指出,顶尖 AI 实验室对 TPU 的兴趣尤为浓厚,“很多人希望同时在两种平台上运行”。

但谷歌的优势在于兼具十余年芯片设计经验、充裕资金以及对 AI 模型的第一手洞察。在顶级 AI 开发商中,谷歌是唯一一家大规模自研芯片的公司,这使其能够在硬件与模型团队之间形成高效的双向反馈。Gimlet Labs 联合创始人 Natalie Serrino 表示,现有 TPU 已非常适合处理新兴 AI 智能体的工作负载,“对于正在爆发的这类任务来说,它们是很好的工具”。

深层矛盾:三年研发周期与 AI 快速迭代的博弈

当然,谷歌芯片的制约因素在于,芯片从研发到量产需要约三年时间,而 AI 模型的演进速度远超于此,这使得精准预判未来客户需求变得极为困难。Barham 则对硬件与模型团队之间过于紧密的反馈循环表达了另一层担忧——这种循环可能导致团队只优化当前软硬件的契合度,而错失更具突破性的新思路。

为在两者之间寻求平衡,TPU 团队有时选择将芯片设计为“足够好”以应对多种使用场景,而非针对某一用途极致优化;另一种策略是并行推进两套不同设计方案,视具体需求决定最终落地。

Vahdat 的一段话或许最能概括谷歌在芯片战略上的长远考量:“只为谷歌生产 TPU 有其好处,但也有显著的弊端。最终你会困在一座我们所说的‘技术孤岛’上。它或许是一座美丽的孤岛,但居民有限,多样性也有限,最终可能反而发展受阻。"这句话,既是警惕,也是谷歌 TPU 走向开放市场的**注脚。