Users Guide

Table Of Contents
NOTA: Esta es una función que se concede bajo licencia y solo está disponible con la licencia iDRAC Datacenter. Las siguientes
propiedades requieren una licencia de centro de datos; se enumeran otras propiedades incluso sin licencia de centro de datos:
Métricas térmicas:
Temperatura de destino de GPU
Temperatura mínima de ralentización de hardware de GPU
Temperatura de apagado de GPU
Temperatura máxima de funcionamiento de la memoria
Temperatura máxima de funcionamiento de la GPU
Estado de alerta térmica
Estado de interrupción de alimentación
Métricas de alimentación:
Estado del suministro de energía
Estado de suministro de energía de la placa
Telemetría: todos los datos de informes de telemetría de GPU
NOTA: No se mostrarán las propiedades de la GPU para las tarjetas GPU integradas y el estado se marcará como desconocido.
La GPU debe estar en el estado Listo antes de que el comando recupere los datos. En el campo GPUStatus del inventario, se muestra la
disponibilidad de la GPU y si el dispositivo de GPU responde. Si el estado de la GPU es Listo, se muestra OK en GPUStatus; de lo contrario,
se indica que el estado es No disponible.
La GPU ofrece varios parámetros de estado que se pueden extraer a través de la interfaz de SMBPB de las controladoras NVIDIA. Esta
función está limitada solo a las tarjetas NVIDIA. A continuación, se indican los parámetros de estado recuperados del dispositivo GPU:
Alimentación
Temperatura
Térmico
NOTA:
Esta función solo está limitada a las tarjetas NVIDIA. Esta información no está disponible para otras GPU que puedan ser
compatibles con el servidor. El intervalo para sondear las tarjetas GPU durante el PBI es de 5 segundos.
El sistema host debe tener instalado el controlador NVIDIA y ejecutarlo para el consumo de alimentación, la temperatura de destino de la
GPU, la temperatura mínima de ralentización de la GPU, la temperatura de apagado de la GPU, la temperatura máxima de funcionamiento
de la memoria y las funciones de temperatura máxima de funcionamiento de la GPU para que esté disponible. Estos valores se muestran
como N/A cuando el controlador de la GPU no está instalado.
En Linux, cuando la tarjeta no está en uso, la controladora utiliza la tarjeta y se descarga para ahorrar energía. En estos casos, no están
disponibles las características de consumo de energía, temperatura objetivo de la GPU, temperatura mínima de ralentización de la GPU,
temperatura de apagado de la GPU, la temperatura máxima de funcionamiento de la memoria y las funciones de temperatura máxima de
funcionamiento de la GPU. El modo persistente debe estar activado para que el dispositivo evite la descarga. Puede utilizar la herramienta
nvidia-smi para habilitar esto mediante el comando nvidia-smi -pm 1.
Puede generar informes de la GPU mediante telemetría. Para obtener más información acerca de la función de telemetría, consulte
Transmisión de telemetría en la página 217
NOTA:
En RACADM, puede ver entradas de GPU ficticias con valores vacíos. Esto puede ocurrir si el dispositivo no está listo para
responder cuando la iDRAC genera una consulta al dispositivo GPU con el fin de obtener información. Ejecute la operación iDRAC
racrest para resolver este problema.
Monitoreo de FPGA
Los dispositivos de arreglos de puertas programables en campo (FPGA) necesitan monitoreo en tiempo real del sensor de temperatura, ya
que genera mucho calor cuando está en uso. Realice los siguientes pasos para obtener información de inventario FPGA:
Apague el servidor.
Instale el dispositivo FPGA en la tarjeta vertical.
Encienda el servidor.
Espere hasta que se complete la prueba POST.
Inicie sesión en la GUI de iDRAC.
Vaya a Sistema > Descripción general > Aceleradores. Puede ver las secciones GPU y FPGA.
Amplíe el componente FPGA específico para ver la siguiente información del sensor:
Visualización de la información de iDRAC y el sistema administrado
125