Users Guide

Table Of Contents
GPU-Verwaltung (Beschleuniger)
Dell PowerEdge Server werden mit Graphics Processing Unit (GPU) ausgeliefert. Mithilfe der GPU-Verwaltung können Sie die
verschiedenen GPUs anzeigen, die mit dem System verbunden sind, und außerdem die Strom-, Temperatur- und Wärme Informationen für
die GPUs überwachen.
ANMERKUNG: Dies ist eine lizenzierte Funktion und im Rahmen einer iDRAC Datacenter-Lizenz verfügbar. Für die nachfolgenden
Eigenschaften ist eine Datacenter-Lizenz erforderlich, andere Eigenschaften sind auch ohne Datacenter-Lizenz aufgeführt:
Temperaturkennzahlen:
GPU-Zieltemperatur
Min. GPU-HW-Drosselungstemperatur
GPU-Temperatur beim Herunterfahren
Max. Speicher-Betriebstemperatur
Max. GPU-Betriebstemperatur
Temperatur-Warnmeldungsstatus
Strombremsstatus
Stromkennzahlen:
Netzteilstatus
Stromversorgungsstatus der Platine
Telemetrie: alle GPU-Telemetrieberichtsdaten
ANMERKUNG: GPU-Eigenschaften werden nicht für integrierte GPU-Karten aufgelistet und der Status wird als Unbekannt
gekennzeichnet.
Die GPU muss sich im Zustand „Bereit“ befinden, bevor der Befehl die Daten abruft. Das Feld GPU-Status im Bestand zeigt die
Verfügbarkeit der GPU an und ob das GPU-Gerät reagiert oder nicht. Wenn der GPU-Status „Bereit“ lautet, zeigt GPUStatus „OK“ an,
andernfalls wird der Status „Nicht verfügbar“ angezeigt.
Die GPU bietet mehrere Integritätsparameter, die über die SMBPB-Schnittstelle der NVIDIA-Controller abgerufen werden können. Diese
Funktion ist nur auf NVIDIA-Karten beschränkt. Es folgen die Integritätsparameter, die vom GPU-Gerät abgerufen werden:
Stromversorgung
Temperatur
Thermisch
ANMERKUNG:
Diese Funktion ist nur auf NVIDIA-Karten beschränkt. Diese Informationen sind für keine andere GPU verfügbar, die
der Server möglicherweise unterstützt. Das Intervall, in dem die GPU-Karten über die PBI abgefragt werden, beträgt 5 Sekunden.
Auf dem Hostsystem muss der NVIDIA-Treiber installiert sein und ausgeführt werden, damit die Funktionen Stromverbrauch, GPU-
Zieltemperatur, Min. GPU-Drosselungstemperatur, GPU-Temperatur beim Herunterfahren, Max. Speicher-Betriebstemperatur und Max.
Speicher-Betriebstemperatur verfügbar sind. Diese Werte werden als N/A angezeigt, wenn der GPU-Treiber nicht installiert ist.
Wenn in Linux die Karte nicht verwendet wird, trainiert der Treiber die Karte nach unten und wird entladen, um Energie zu sparen. In
solchen Fällen sind die Funktionen Stromverbrauch, GPU-Zieltemperatur, Min. GPU-Drosselungstemperatur, GPU-Temperatur beim
Herunterfahren, Max. Speicher-Betriebstemperatur und Max. Speicher-Betriebstemperatur nicht verfügbar. Der persistente Modus sollte
für das Gerät aktiviert werden, um eine Entladung zu vermeiden. Sie können das NVIDIA-SMI-Tool verwenden, um dies mithilfe nvidia-
smi -pm 1 zu aktivieren.
Sie können GPU-Berichte mithilfe von Telemetrie erzeugen. Weitere Informationen zur Telemetriefunktion finden Sie unter Telemetrie-
Streaming auf Seite 218
ANMERKUNG:
In RACADM werden möglicherweise Dummy-GPU-Einträge mit leeren Werten angezeigt. Dies kann der Fall sein,
wenn das Gerät nicht bereit ist zu reagieren, wenn der iDRAC die Informationen vom GPU-Gerät abfragt. Führen Sie den iDRAC-
Vorgang racrest durch, um dieses Problem zu beheben.
FPGA-Monitoring
Field-Programmable Gate Array-Geräte (FPGA) benötigen eine Echtzeitüberwachung des Temperatursensors, da sie bei Verwendung
erhebliche Wärme erzeugen. Führen Sie die folgenden Schritte aus, um FPGA-Bestandsinformationen abzurufen:
Schalten Sie den Server aus.
126
Anzeigen von Informationen zu iDRAC und zum Managed System