Users Guide

Table Of Contents
GPU-Verwaltung (Beschleuniger)
Dell PowerEdge Server werden mit Graphics Processing Unit (GPU) ausgeliefert. Mithilfe der GPU-Verwaltung können Sie
die verschiedenen GPUs anzeigen, die mit dem System verbunden sind, und außerdem die Strom-, Temperatur- und Wärme
Informationen für die GPUs überwachen.
ANMERKUNG: Dies ist eine lizenzierte Funktion und im Rahmen einer iDRAC Datacenter-Lizenz verfügbar. Für die
nachfolgenden Eigenschaften ist eine Datacenter-Lizenz erforderlich, andere Eigenschaften sind auch ohne Datacenter-
Lizenz aufgeführt:
Temperaturkennzahlen:
GPU-Zieltemperatur
Min. GPU-HW-Drosselungstemperatur
GPU-Temperatur beim Herunterfahren
Max. Speicher-Betriebstemperatur
Max. GPU-Betriebstemperatur
Temperatur-Warnmeldungsstatus
Strombremsstatus
Stromkennzahlen:
Netzteilstatus
Stromversorgungsstatus der Platine
Telemetrie: alle GPU-Telemetrieberichtsdaten
ANMERKUNG: GPU-Eigenschaften werden nicht für integrierte GPU-Karten aufgelistet und der Status wird als
Unbekannt gekennzeichnet.
Die GPU muss sich im Zustand Bereit befinden, bevor der Befehl die Daten abruft. Das Feld GPU-Status im Bestand zeigt die
Verfügbarkeit der GPU an und ob das GPU-Gerät reagiert oder nicht. Wenn der GPU-Status Bereit lautet, zeigt GPUStatus
OK an, andernfalls wird der Status Nicht verfügbar angezeigt.
Die GPU bietet mehrere Integritsparameter, die über die SMBPB-Schnittstelle der NVIDIA-Controller abgerufen werden
können. Diese Funktion ist nur auf NVIDIA-Karten beschränkt. Es folgen die Integritätsparameter, die vom GPU-Gerät abgerufen
werden:
Stromversorgung
Temperatur
Thermisch
ANMERKUNG:
Diese Funktion ist nur auf NVIDIA-Karten beschränkt. Diese Informationen sind für keine andere GPU
verfügbar, die der Server möglicherweise unterstützt. Das Intervall, in dem die GPU-Karten über die PBI abgefragt werden,
beträgt 5 Sekunden.
Auf dem Hostsystem muss der NVIDIA-Treiber installiert sein und ausgeführt werden, damit die Funktionen
Stromverbrauch, GPU-Zieltemperatur, Min. GPU-Drosselungstemperatur, GPU-Temperatur beim Herunterfahren, Max.
Speicher-Betriebstemperatur und Max. Speicher-Betriebstemperatur verfügbar sind. Diese Werte werden als N/A angezeigt,
wenn der GPU-Treiber nicht installiert ist.
Wenn in Linux die Karte nicht verwendet wird, trainiert der Treiber die Karte nach unten und wird entladen, um Energie
zu sparen. In solchen Fällen sind die Funktionen Stromverbrauch, GPU-Zieltemperatur, Min. GPU-Drosselungstemperatur, GPU-
Temperatur beim Herunterfahren, Max. Speicher-Betriebstemperatur und Max. Speicher-Betriebstemperatur nicht verfügbar.
Der persistente Modus sollte für das Gerät aktiviert werden, um eine Entladung zu vermeiden. Sie können das NVIDIA-SMI-Tool
verwenden, um dies mithilfe nvidia-smi -pm 1 zu aktivieren.
Sie können GPU-Berichte mithilfe von Telemetrie erzeugen. Weitere Informationen zur Telemetriefunktion finden Sie unter
Telemetry Streaming auf Seite 223
ANMERKUNG:
In RACADM werden möglicherweise Dummy-GPU-Einträge mit leeren Werten angezeigt. Dies kann der Fall
sein, wenn das Gerät nicht bereit ist zu reagieren, wenn der iDRAC die Informationen vom GPU-Gerät abfragt. Führen Sie
den iDRAC-Vorgang racrest durch, um dieses Problem zu beheben.
Anzeigen von Informationen zu iDRAC und zum Managed System 129