Users Guide

Table Of Contents
GPU 关闭温度
内存最高运行温度
最大 GPU 操作温度
散热警报状态
动力制动状态
电源指标
电源设备状况
主板电源设备的状态
遥测 所有 GPU 遥测报告数据
: 未针对嵌入的 GPU 卡列出 GPU 属性并且状态被标记为未知
在命令提取数据之前GPU 必须处于就绪状态。资源清册中的 GPUStatus 字段显示 GPU 的可用性及 GPU 设备是否响应。如果 GPU
状态为“就绪” GPUStatus 显示“正常”否则状态显示为“不可用”。
GPU 提供多个运行状况参数可以通过 NVIDIA 控制器的 SMBPB 接口撤销。此功能仅限 NVIDIA 卡。以下是从 GPU 设备检索到的运
行状况参数
功率
温度
散热
: 此功能仅限 NVIDIA 卡。此信息不适用于服务器可能支持的任何其他 GPU。在 PBI 上轮询 GPU 卡的时间间隔为 5 秒。
主机系统必须安装并运行 NVIDIA 驱动程序才能使用功耗、GPU 目标温度、GPU 降速最低温度、GPU 降低温度、内存最高运行温度
GPU 最高运行温度等功能。如果未安装 GPU 驱动程序则这些值将显示为 N/A
Linux 未使用卡时驱动程序将向下并卸载卡以节省电力。在此类情况下功耗、GPU 目标温度、GPU 降速最低温度、
GPU 关闭温度、内存最高运行温度和 GPU 最高运行温度等功能不可用。应为设备启用持续模式以避免卸载。您可以使用命令
nvidia-smi -pm 1 来启用此工具。
您可以使用遥测生成 GPU 报告。有关遥测功能的更多信息请参阅 遥测流式传输 页面上的 190
: Racadm 您可能会看到具有空值的虚拟 GPU 条目。如果在 iDRAC 查询 GPU 设备中的信息时设备因未准备好而无法响
则可能会发生这种情况。请执行 iDRAC racrest 操作以解决此问题。
FPGA 监测
现场可编程门阵列 (FPGA) 设备需要实时温度传感器监视因为这些设备在使用时会产生大量热量。执行以下步骤以获取 FPGA 资源
清册信息
关闭服务器电源。
在提升卡上安装 FPGA 设备。
开启服务器。
等待开机自检完成。
登录 iDRAC GUI
导航至系统 > 概览 > 加速器。您可以看到 GPU FPGA 部分。
展开特定 FPGA 组件以查看以下传感器信息
功耗
温度详细信息
: 您必须具有 iDRAC 登录权限才能访问 FPGA 信息。
: 功耗传感器仅适用于受支持的 FPGA 并且仅在有 Datacenter 许可证时可用。
检查系统的新鲜空气符合性
新鲜空气冷却直接使用外部空气冷却数据中心中的系统。符合新鲜空气标准的系统可以在高于其正常环境工作范围的条件下运行
温度高达 113°F [45° C ]
查看 iDRAC 和受管系统信息 111