System information
CHARM-Card: Hardwarebasiertes Computer-Cluster Kontroll- und
Managementsystem
Die Selektion und Analyse von Ereignisdaten des Schwerionen-Experiments ALICE am
CERN werden durch sogenannte Triggerstufen vorgenommen. Der High Level Trigger (HLT)
ist die letzte Triggerstufe des Experimentes. Er besteht aus einer Rechnerfarm von zur Zeit
über 120 Computer, die auf 300 Rechner ausgebaut werden soll. Die manuelle Installa-
tion, Konfiguration und Wartung einer Rechnerfarm dieser Größe sind dabei jedoch sehr
aufwändig und zeitintensiv.
Die vorliegende Arbeit beschreibt die Implementierung und Funktionsweise einer autono-
men Steuereinheit, die in jedem Rechner des HLT Computer Clusters eingebaut wurde. Die
Hauptaufgaben der Steuereinheit sind die Fernsteuerung der Knoten und die automatische
Installation, Überwachung und Wartung derselben. Ein weiteres erreichtes Ziel ist die uni-
verselle Nutzung der Steuereinheit: Denn aufgrund der heterogenen Clusterstruktur durfte
es keine Einschränkungen für den Betrieb der Steuereinheit bezüglich des Rechnermodells
oder des Betriebssystems der Clusterknoten geben. Dadurch lassen sich auch kostengün-
stige COTS (commercial-off-the-shelf) Rechner als Knoten einsetzen, ohne dabei auf die
Fernwartungsfunktionen zu verzichten, wie sie in teuren Serverrechner zu finden sind.
Die Steuereinheit ist bereits im Einsatz und ermöglicht die Fernwartung aller Rechner des
HLT Clusters. Des Weiteren wurde die gesamte HLT Rechnerfarm mit Hilfe der Steuerein-
heit automatisch installiert, getestet und konfiguriert.
CHARM-Card: Hardware Based Computer Cluster Control And Management
System
The selection and analysis of detector events of the heavy ion collider experiment ALICE
at CERN are accomplished by the so-called trigger levels. The High Level Trigger (HLT) is
the last trigger level of this experiment. Currently, it consists of up to over 120 computers
and it is planned to upgrade the cluster to up to 300 computers. However, the manual
installation, configuration and maintenance of such a big computer farm require a large
amount of administrative effort.
This thesis describes the implementation and functionality of an autonomous control
unit, which was installed to every node of the HLT computing cluster. The main tasks of
the control unit are the remote control of the cluster nodes and the automatic installation,
monitoring and maintenance of the computers. By the reason of the heterogeneous layout
of the target cluster, the control unit was developed to be flexible in use independent of the
computer model or operating system of the cluster node. This characteristic enables remote
control of cost-efficient COTS (commercial-off-the-shelf) PCs, which do not have integrated
remote control capabilities as expensive server boards.
The HLT computing cluster is already remotely controlled by the help of the control
unit. Furthermore, this control unit was also used for the automatic setup, testing and
configuration of all cluster nodes.
5