北京时间 3 月 19 日凌晨 1:00 大洋彼岸的美国加利福尼亚州圣何塞会议中心灯火通明,人声鼎沸。全球科技界瞩目的年度盛会——英伟达 GTC 2025 大会在这里盛大开幕。
作为全球人工智能和计算机图形学领域的顶级峰会,GTC 大会一直被视为行业风向标,每年都吸引着来自世界各地的科技巨头、专家学者和开发者齐聚一堂,共同探讨 AI 技术的未来发展方向。
英伟达 Dynamo 是 Triton 推理服务器的后继产品,是一款新型 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大限度地创造 token 收入。它协调和加速数千个 GPU 之间的推理通信,并使用分解服务将大型语言模型的处理和生成阶段分离在不同 GPU 上。这允许每个阶段根据其特定需求进行独立优化,并确保最大程度地利用 GPU 资源。
为了实现这些推理性能改进,NVIDIA Dynamo 整合了可提高吞吐量和降低成本的功能。它可以根据不断变化的请求量和类型动态添加、移除和重新分配 GPU,以及在大型集群中精确定位特定 GPU,以最大限度地减少响应计算和路由查询。它还可以将推理数据Kaiyun平台 开云体育官方入口卸载到更便宜的内存和存储设备,并在需要时快速检索它们,从而最大限度地降低推理成本。
英伟达还在对其所谓的 GPU 进行调整。英伟达表示,Rubin 实际上是两Kaiyun平台 开云体育官方入口个 GPU。
