整理和翻译了一下昨晚英伟达GTC大会的公告,下面是其中的十个要点:
- NVIDIA推出新的Blackwell计算平台,旨在为万亿参数的大语言模型实现实时生成式AI。
- Blackwell架构比前代Hopper架构的训练性能提升2.5倍(FP8),推理性能提升5倍(FP4),采用第五代NVLink互连,可扩展到576个GPU。
- NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗NVLink芯片间互连,将两个Blackwell B200 GPU连接到Grace CPU,实现高度集成和内存一致性。
- NVIDIA推出NVLink Switch芯片,每个可以以1.8TB/s的速度连接四个NVLink,并通过片上通信减少来降低网络开销。
- NVIDIA GB200 NVL72是一个多节点、液冷、机架式系统,在单机架内可提供720 PFLOPS的AI训练性能和1.4 EFLOPS的AI推理性能。
- 全新NVIDIA DGX SuperPOD采用NVIDIA GB200 Grace Blackwell超级芯片,专为万亿参数模型设计,可提供11.5 EFLOPS的AI超算能力(FP4)和240TB高速内存。
- NVIDIA发布NIM(NVIDIA Inference Microservices),通过组装加速库和生成式AI模型,让开发者能更轻松地构建和部署定制化AI应用
- NVIDIA Omniverse Cloud以API形式开放,让开发者能将Omniverse核心技术集成到设计、自动化软件和仿真工作流中,加速构建数字孪生应用。
- NVIDIA发布Isaac机器人平台更新,包括Isaac Perceptor感知SDK和Isaac Manipulator机械臂控制库。同时宣布面向人形机器人的Jetson
- Thor计算机和Project GR00T通用基础模型。
- NVIDIA与台积电、新思科技合作,将突破性的计算光刻(computational lithography)平台cuLitho推向量产,可将芯片制造中的光刻工艺加速40-60倍。
正文
NVIDIA 创始人兼首席执行官 Jensen Huang 在周一的主题演讲中介绍了该公司新的 Blackwell 计算平台。他概述了更强大的计算能力将如何为从软件到服务、机器人技术到医疗技术等各个领域带来重大突破。
Huang 在 SAP Center 体育馆对 11,000 多名现场观众和数万名在线观众表示:"加速计算 (Accelerated Computing) 已经达到了临界点,通用计算已经无法满足需求。我们需要另一种计算方式,以便能够持续扩展规模,降低计算成本,在保持可持续发展的同时不断提高计算能力的使用效率。在每个行业,加速计算的速度都远远超过通用计算。"
Huang 在一个相当于网球场大小的 40 英尺高 8K 巨幕前发表演讲,现场座无虚席,观众包括众多 CEO、开发人员、AI 爱好者和企业家。在一个阳光明媚的春日,他们从圣何塞会议中心步行 20 分钟来到了这个体育馆。
为了给全球 AI 基础设施带来巨大升级,Huang 推出了 NVIDIA Blackwell 平台,旨在为万亿参数的大语言模型 (Large Language Model) 实现实时生成式 AI (Generative AI)。
Huang 展示了 NVIDIA NIM(NVIDIA 推理微服务 (Inference Microservices) 的缩写)——这是一种全新的软件打包和交付方式,可以将开发人员与数亿个 GPU 连接起来,部署各种定制 AI 模型。
为了将 AI 带入物理世界,Huang 还介绍了 Omniverse Cloud API,以提供先进的仿真功能。
除了这些重磅发布,Huang 还通过强大的演示、与全球最大企业的合作,以及 20 多项公告详细阐述了他的愿景。
GTC 大会已经从 15 年前在当地酒店宴会厅举办的小型活动,发展成为当今世界上最重要的 AI 盛会。时隔五年,GTC 再次回归线下。
今年的大会包括 900 多场会议,其中有 Huang 主持的 Transformer 先驱小组讨论,超过 300 个展位和 20 多个技术研讨会。GTC 俨然已经成为 AI 与各行各业交汇的风向标。
在精彩的开场表演中,世界顶级 AI 艺术家 Refik Anadol 展示了一个大型实时 AI 数据雕塑,绿色、蓝色、黄色和红色的波浪状漩涡在屏幕上翻腾、扭曲、舒展。
Huang 解释说,多模态 AI 的兴起让 AI 拥有了更强的适应性和能力。多模态 AI 可以处理不同模型所处理的各种数据类型。通过增加参数数量,这些模型可以执行更加复杂的分析任务。
但与此同时,对计算能力的需求也急剧增加。随着这些协作式多模态系统变得日益复杂,参数数量高达万亿,对先进计算基础设施的需求变得更加迫切。
Huang 表示:"我们需要更大规模的模型。我们不仅要用互联网上的文本来训练它,还要用文本、图像、图表等多模态数据来训练,就像我们通过看电视来学习一样,模型也将通过大量观看视频来学习。"
下一代加速计算平台
简而言之,Huang 认为:"我们需要更强大的 GPU。" 而 Blackwell 平台就是为了应对这一挑战而诞生的。Huang 从口袋里掏出一个 Blackwell 芯片,与 Hopper 芯片并列展示,Blackwell 芯片的尺寸明显更大。
Blackwell 架构以加州大学伯克利分校数学家 David Harold Blackwell 的名字命名,他是博弈论和统计学领域的专家,也是首位入选美国国家科学院的黑人学者。Blackwell 架构取代了两年前发布的 NVIDIA Hopper 架构。
与前代产品相比,Blackwell 在训练任务上每片芯片可提供 2.5 倍的 FP8 (8-bit Floating Point) 性能,在推理任务上可提供 5 倍的 FP4 (4-bit Floating Point) 性能。它采用第五代 NVLink 互连技术,速度是 Hopper 的两倍,并且可以扩展到 576 个 GPU。
NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的 NVLink 芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 连接到 NVIDIA Grace CPU。
Huang 展示了一块搭载该系统的电路板:"这是首款在如此小的空间内集成如此多算力的计算机。由于采用了内存一致性设计,所有组件就像一个快乐的大家庭,可以协同工作于同一个应用。"
为了发挥 AI 的最佳性能,GB200 驱动的系统可以与 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台连接,这两款产品也在今天发布,可提供高达 800Gb/s 的超高速网络。
Huang 说:"我们节省的能源、网络带宽以及时间将是巨大的。未来是属于生成式 AI 的,这就是它代表着一个全新的产业。我们的计算方式发生了根本性的变化。我们为生成式 AI 时代打造了专属处理器。"
为了进一步扩展 Blackwell 架构,NVIDIA 构建了一款名为 NVLink Switch 的新芯片。每个 NVLink Switch 可以以 1.8TB/s 的速度连接四个 NVLink 互连,并通过片上减少通信来降低网络开销。
Huang 所说的"一个巨大的 GPU",指的就是由 NVIDIA Switch 和 GB200 组成的关键部件 —— NVIDIA GB200 NVL72。它是一个多节点、液冷、机架式系统,利用 Blackwell 架构为万亿参数模型提供超算级的性能,在单个机架内可实现 720 PFLOPS 的 AI 训练性能和 1.4 EFLOPS 的 AI 推理性能。
Huang 谈到这个包含 60 万个部件、重达 3000 磅的系统时说:"目前全球可能只有两三台 EFLOPS 级的超算。而它就是一台单机架的 EFLOPS 级 AI 系统。让我们来看看它的背面。"
今天,NVIDIA 还宣布了新一代 AI 超级计算机 —— NVIDIA DGX SuperPOD。它采用 NVIDIA GB200 Grace Blackwell 超级芯片,专为处理万亿参数模型而设计,可提供 7×24 小时的超大规模生成式 AI 训练和推理能力。
全新的 DGX SuperPOD 采用创新的高效液冷机架式架构,基于 NVIDIA DG GB200 系统构建,在 FP4 精度下可提供 11.5 EFLOPS 的 AI 超算能力和 240TB 的高速内存,通过横向扩展机架数量还可以进一步提升性能。
Huang 表示:"未来,数据中心将被视为 AI 工厂,它们的终极目标就是产出智能,创造收益。"
业界已经对 Blackwell 平台表示了高度认可。
宣布 Blackwell 的新闻稿包含了众多科技巨头高管的肯定,其中包括 Alphabet 和 Google CEO Sundar Pichai、亚马逊 CEO Andy Jassy、戴尔 CEO Michael Dell、Google DeepMind CEO Demis Hassabis、Meta CEO Mark Zuckerberg、微软 CEO Satya Nadella、OpenAI CEO Sam Altman、甲骨文董事长 Larry Ellison,以及特斯拉和 xAI CEO Elon Musk。
全球所有主要云服务提供商、开创性 AI 公司、系统和服务器厂商,以及遍布世界各地的区域云服务商和电信运营商都在积极采用 Blackwell 平台。
Huang 说:"整个产业都在为 Blackwell 的到来做准备。这将是 NVIDIA 有史以来最成功的发布。"
软件构建的新范式
Huang 指出,生成式 AI 改变了应用开发的方式。
他解释道,未来公司不再从零开始编写软件或大量 Python 代码,而是通过组装 AI 模型,给它们布置任务,提供工作成果的样例,并审核计划和中间结果,最终完成应用开发。
Huang 介绍,这些被称为 NVIDIA NIM(NVIDIA 推理微服务)的软件包,是由 NVIDIA 的加速计算库和生成式 AI 模型构建而成的。
"未来我们如何构建软件?我们将不太可能从头开始编写代码。相反,你很可能会组建一个由多个 AI 模型组成的团队。"
这些微服务支持行业标准 API,易于连接,可以在 NVIDIA 广泛的 CUDA 安装基础上运行。它们会针对新的 GPU 进行持续优化,并持续进行安全漏洞扫描。
Huang 表示,客户可以直接使用现成的 NIM 微服务,NVIDIA 也可以帮助他们构建专有的 AI 模型和 Copilot,通过让模型学习企业特有的专业技能,为企业创造宝贵的新服务。
"企业 IT 行业正坐拥一座金矿。他们多年来积累了大量宝贵的工具和数据。如果能利用这些资源打造 Copilot,就可以极大地提升工作效率。"
许多科技巨头已经开始付诸实践。Huang 详细介绍了 NVIDIA 如何帮助 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 构建 Copilot 和虚拟助手。各行各业也纷纷行动起来。
在电信领域,Huang 发布了 NVIDIA 6G 研究云平台。它基于生成式 AI 和 Omniverse 打造,旨在推动下一代通信技术发展。该平台建立在 NVIDIA Sionna 神经无线电框架、NVIDIA Aerial CUDA 加速无线接入网和用于 6G 的 NVIDIA Aerial Omniverse 数字孪生技术之上。
在芯片设计和制造领域,Huang 宣布 NVIDIA 正在与台积电和新思科技合作,将其突破性的计算光刻平台 cuLitho (computational lithography) 推向量产。该平台可将芯片制造中最耗时的光刻工艺加速 40-60 倍。
Huang 还发布了 NVIDIA Earth 全球气候数字孪生平台。这一现已推出的云平台,可支持交互式高分辨率模拟,加速气候和天气预测。
Huang 认为,AI 将在医疗健康领域产生最大影响。目前,NVIDIA 的技术已经应用于医学影像系统、基因测序仪器,并与领先的外科手术机器人公司展开合作。
NVIDIA 正在推出一种全新的生物软件。今天,NVIDIA 发布了20 多个新的微服务,使全球医疗企业能够在任何地点、任何云平台上利用生成式 AI 的最新进展。这些微服务提供了先进的医学影像、自然语言处理、语音识别,以及数字生物学的生成、预测和仿真能力。
用 Omniverse 将 AI 带入物理世界
Huang 表示,AI 的下一个浪潮将是学习物理世界。
"我们需要一个模拟引擎,以数字孪生的方式为机器人呈现世界,让它们拥有一个训练场,学习如何成为合格的机器人。我们把这个虚拟世界叫做 Omniverse。"
因此,NVIDIA 今天宣布 Omniverse Cloud 将以 API 的形式提供,让全球软件开发者生态能够利用这一全球领先的工业数字孪生平台。
五个全新的 Omniverse Cloud API 让开发者能够轻松地将 Omniverse 的核心技术直接集成到现有的设计和自动化软件中,构建数字孪生应用;或集成到仿真工作流中,测试和验证机器人、自动驾驶车辆等自主系统。
为了展示其工作原理,Huang 分享了一个机器人仓库的演示。该系统利用多摄像头实现感知和跟踪,监控工人,并协调自主驾驶的叉车机器人。这些机器人运行着完整的自动驾驶软件栈。
Huang 还宣布,NVIDIA 将把 Omniverse 引入 Apple Vision Pro。新的 Omniverse Cloud API 可以让开发者将交互式工业数字孪生流式传输到这款 VR 头显中。
许多全球顶级工业软件厂商都在采用 Omniverse Cloud API,包括 Ansys、Cadence、达索系统的 3DEXCITE 品牌、Hexagon、Microsoft、罗克韦尔自动化、西门子和 Trimble。
机器人技术
Huang 认为,未来所有会动的东西都将成为机器人,而汽车行业将是其中的重要组成部分。目前,NVIDIA 的计算平台已经广泛应用于汽车、卡车、配送机器人和自动驾驶出租车。
Huang 宣布,全球最大的自动驾驶汽车公司比亚迪已选择 NVIDIA 的下一代自动驾驶计算平台 DRIVE Thor,作为其下一代电动车队的核心。
为了帮助机器人更好地感知环境,NVIDIA 还发布了 Isaac Perceptor 软件开发包,其中包括最先进的多摄像头视觉里程计、3D 重建、占用网格图和深度感知技术。
为了让机器人手臂更加灵活,NVIDIA 推出了 Isaac Manipulator 软件包,集成了尖端的机器臂感知、路径规划和运动控制算法库。
最后,Huang 宣布启动 Project GR00T,这是一个面向人形机器人的通用基础模型,旨在进一步推动 NVIDIA 在机器人和具身 AI 领域的突破性进展。
为了支持这一目标,Huang 发布了一款专为人形机器人设计的 Jetson Thor 计算机,它基于 NVIDIA Thor 芯片,并对 Isaac 机器人平台进行了大幅升级。
演讲临近尾声时,Huang 请来了两个身材矮小的迪士尼研究机器人,它们搭载了 NVIDIA 技术。
"计算机图形学、物理模拟、人工智能,这些 NVIDIA 的核心所在,在这一刻交汇融合,绽放异彩。"Huang 总结道。
原文:‘We Created a Processor for the Generative AI Era,’ NVIDIA CEO Says