Partager via


Nœuds de surveillance

Une étape clé de la surveillance et de la maintenance de l’intégrité du cluster consiste à identifier toute déviance de l’état opérationnel normal ou des performances. HPC Cluster Manager vous permet d’afficher l’état du cluster et du nœud en un clin d’œil, d’identifier les nœuds problématiques et d’explorer les détails des nœuds pour une investigation plus approfondie.

Dans cette rubrique :

Afficher l’état du cluster en un clin d’œil

Dans Gestion des nœuds , vous pouvez surveiller votre cluster en un clin d’œil à l’aide de la vue Liste des nœuds ou de la vue Carte thermique du nœud. Dans graphiques et rapports, les graphiques d’analyse affichent les données actuelles et récentes sur l’intégrité des nœuds et l’utilisation du cluster. Pour plus d’informations, consultez :

Explorer les détails d’un nœud individuel

Les vues Liste et Carte thermique fournissent un point de départ pour identifier les zones problématiques. Double-cliquez sur un nœud de calcul pour afficher des informations détaillées telles que le matériel, les propriétés du système d’exploitation et les métriques de performances actuelles. Vous pouvez également sélectionner un ou plusieurs nœuds, puis explorer les détails du nœud pour examiner les performances.

Surveiller les opérations de nœud

Le suivi des opérations de cluster récentes ou en cours est un autre aspect de surveillance essentiel à l’administration d’un cluster. Pour plus d’informations, consultez :

Mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics

Dans HPC Job Manager, vous pouvez utiliser le tableau croisé dynamique pour mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics. Par exemple, vous pouvez sélectionner un ou plusieurs nœuds dans le volet Affichages, puis pivoter vers les travaux des nœuds sélectionnés. Vous accédez ainsi à un affichage de liste de travaux filtré par les nœuds que vous avez sélectionnés.

Les chemins d’accès croisé dynamique pris en charge sont les suivants :

  • Nœuds : pivotez vers des travaux, des résultats de test et des opérations.

  • Travaux : pivoter vers des nœuds.

  • Résultats des tests : pivoter vers les nœuds ayant échoué et les opérations.

Surveiller l’utilisation et les statistiques du cluster au fil du temps

HPC Cluster Manager fournit plusieurs graphiques et rapports intégrés pour surveiller et analyser l’utilisation des ressources de cluster et les statistiques de travail et de nœud au fil du temps. La base de données HPCReporting prend également en charge les rapports personnalisés. Pour plus d’informations, consultez Graphiques et rapports : Gestionnaire de cluster HPC.

Dans cette section