常见问题
支持的设备厂商及具体型号
| GPU 厂商 | GPU 型号 | 粒度 | 多 GPU 支持 |
|---|---|---|---|
| NVIDIA | 几乎所有主流消费级和数据中 心 GPU | 核心 1%,显存 1M | 支持。多 GPU 仍可通过虚拟化进行拆分和共享。 |
| 昇腾 | 910A、910B2、910B3、310P | 最小粒度取决于卡类型模板。参考官方模板。 | 支持,但当 npu > 1 时不支持拆分,整卡独占。 |
| 海光 | Z100、Z100L、K100-AI | 核心 1%,显存 1M | 支持,但当 dcu > 1 时不支持拆分,整卡独占。 |
| 寒武纪 | 370、590 | 核心 1%,显存 256M | 支持,但当 mlu > 1 时不支持拆分,整卡独占。 |
| 天数智芯 | 全部 | 核心 1%,显存 256M | 支持,但当 gpu > 1 时不支持拆分,整卡独占。 |
| 摩尔线程 | MTT S4000 | 核心为 1 个核心组,显存 512M | 支持,但当 gpu > 1 时不支持拆分,整卡独占。 |
| 魅特思 | MXC500 | 不支持拆分,只能整卡分配。 | 支持,但所有分配均为整卡。 |
什么是 vGPU?为什么看到 10 个 vGPU 却无法在同一张卡上分配两个 vGPU?
简要说明:
vGPU 通过逻辑划分方式提升 GPU 利用率,使多个任务共享同一块物理 GPU。设置 deviceSplitCount: 10 表示该 GPU 最多可同时服务 10 个任务,但并不允许一个任务使用该 GPU 上的多个 vGPU。
vGPU 的概念
vGPU 是通过虚拟化在物理 GPU 上创建的逻辑实例,使多个任务可共享同一个物理 GPU。例如配置为 deviceSplitCount: 10,表示该物理 GPU 最多可被分配给 10 个任务。这种分配并不会增加物理资源,仅改变逻辑可见性。
为什么无法在同一张卡上分配两个 vGPU?
-
vGPU 的含义 vGPU 是物理 GPU 的不同任务视图,并非物理资源的划分。当任务请求
nvidia.com/gpu: 2,它被理解为需要两张物理 GPU,而非同一张卡上的两个 vGPU。 -
资源分配机制 vGPU 的设计初衷是让多个任务共享一张 GPU,而不是让单个任务绑定多个 vGPU。
deviceSplitCount: 10表示最多有 10 个任务可以并发共享此 GPU,并不支持一个任务使用多个 vGPU。 -
容器与节点视图一致性 容器中的 GPU UUID 与节点上的物理 GPU UUID 是一致的,即反映的是同一块 GPU。虽然可见多个 vGPU,但这些是逻辑视图而非独立资源。
-
设计目的 vGPU 的设计是为了 让一张 GPU 可供多个任务共享,而不是 让一个任务使用多个 vGPU。vGPU 超售的目标是提升资源利用率,而非扩展单个任务的计算能力。