Users Guide

Table Of Contents
La GPU debe estar en el estado Listo antes de que el comando recupere los datos. En el campo GPUStatus del inventario, se muestra la
disponibilidad de la GPU y si el dispositivo de GPU responde. Si el estado de la GPU es Listo, se muestra OK en GPUStatus; de lo contrario,
se indica que el estado es No disponible.
La GPU ofrece varios parámetros de estado que se pueden extraer a través de la interfaz de SMBPB de las controladoras NVIDIA. Esta
función está limitada solo a las tarjetas NVIDIA. A continuación, se indican los parámetros de estado recuperados del dispositivo GPU:
Alimentación
Temperatura
Térmico
NOTA: Esta función solo está limitada a las tarjetas NVIDIA. Esta información no está disponible para otras GPU que puedan ser
compatibles con el servidor. El intervalo para sondear las tarjetas GPU durante el PBI es de 5 segundos.
El sistema host debe tener instalado el controlador NVIDIA y ejecutarlo para el consumo de alimentación, la temperatura de destino de la
GPU, la temperatura mínima de ralentización de la GPU, la temperatura de apagado de la GPU, la temperatura máxima de funcionamiento
de la memoria y las funciones de temperatura máxima de funcionamiento de la GPU para que esté disponible. Estos valores se muestran
como N/A cuando el controlador de la GPU no está instalado.
En Linux, cuando la tarjeta no está en uso, la controladora utiliza la tarjeta y se descarga para ahorrar energía. En estos casos, no están
disponibles las características de consumo de energía, temperatura objetivo de la GPU, temperatura mínima de ralentización de la GPU,
temperatura de apagado de la GPU, la temperatura máxima de funcionamiento de la memoria y las funciones de temperatura máxima de
funcionamiento de la GPU. El modo persistente debe estar activado para que el dispositivo evite la descarga. Puede utilizar la herramienta
nvidia-smi para habilitar esto mediante el comando nvidia-smi -pm 1.
Puede generar informes de la GPU mediante telemetría. Para obtener más información acerca de la función de telemetría, consulte
Telemetry Streaming en la página 241
NOTA: En RACADM, puede ver entradas de GPU ficticias con valores vacíos. Esto puede ocurrir si el dispositivo no está listo para
responder cuando la iDRAC genera una consulta al dispositivo GPU con el fin de obtener información. Ejecute la operación iDRAC
racrest para resolver este problema.
Monitoreo de FPGA
Los dispositivos de arreglos de puertas programables en campo (FPGA) necesitan monitoreo en tiempo real del sensor de temperatura, ya
que genera mucho calor cuando está en uso. Realice los siguientes pasos para obtener información de inventario FPGA:
Apague el servidor.
Instale el dispositivo FPGA en la tarjeta vertical.
Encienda el servidor.
Espere hasta que se complete la prueba POST.
Inicie sesión en la GUI de iDRAC.
Vaya a Sistema > Descripción general > Aceleradores. Puede ver las secciones GPU y FPGA.
Amplíe el componente FPGA específico para ver la siguiente información del sensor:
Consumo de alimentación
Detalles de temperatura
NOTA: Debe tener privilegios de inicio de sesión de iDRAC para acceder a la información de FPGA.
NOTA: Los sensores de consumo de energía están disponibles solo para las tarjetas FPGA compatibles y solo están disponibles con
licencia de centro de datos.
Identifier GUID-1D495EDB-EED6-4A27-A6D0-E6669F6308A6
Version 1
Status Translation Validated
Consulta del sistema para verificar el cumplimiento de
aire fresco
El enfriamiento de aire fresco utiliza directamente el aire exterior para enfriar los sistemas en el centro de datos. Los sistemas que cumplen
con el requisito de aire fresco pueden funcionar por encima de su rango de funcionamiento ambiente normal (temperaturas de hasta
113 °F [45 °C]).
Visualización de la información de iDRAC y el sistema administrado
137