Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Une étape clé de la surveillance et de la maintenance de l’intégrité du cluster consiste à identifier toute déviance de l’état opérationnel normal ou des performances. HPC Cluster Manager vous permet d’afficher l’état du cluster et du nœud en un clin d’œil, d’identifier les nœuds problématiques et d’explorer les détails des nœuds pour une investigation plus approfondie.
Dans cette rubrique :
Afficher l’état du cluster en un clin d’œil
Dans Gestion des nœuds , vous pouvez surveiller votre cluster en un clin d’œil à l’aide de la vue Liste des nœuds ou de la vue Carte thermique du nœud. Dans graphiques et rapports, les graphiques d’analyse affichent les données actuelles et récentes sur l’intégrité des nœuds et l’utilisation du cluster. Pour plus d’informations, consultez :
Explorer les détails d’un nœud individuel
Les vues Liste et Carte thermique fournissent un point de départ pour identifier les zones problématiques. Double-cliquez sur un nœud de calcul pour afficher des informations détaillées telles que le matériel, les propriétés du système d’exploitation et les métriques de performances actuelles. Vous pouvez également sélectionner un ou plusieurs nœuds, puis explorer les détails du nœud pour examiner les performances.
Exécuter des tests de diagnostic et des rapports : exécutez des tests de diagnostic sur un ou plusieurs nœuds de calcul.
Afficher les graphiques de performances : affichez un graphique des métriques de performances d’un nœud de calcul au fil du temps.
Afficher les événements de nœud : afficher les événements générés par les services HPC sur un nœud de calcul spécifique.
Ouvrez une connexion Bureau à distance à vos nœuds à partir du Gestionnaire de cluster HPC : ouvrez une session Bureau à distance sur un ou plusieurs nœuds de calcul.
Surveiller les opérations de nœud
Le suivi des opérations de cluster récentes ou en cours est un autre aspect de surveillance essentiel à l’administration d’un cluster. Pour plus d’informations, consultez :
Mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics
Dans HPC Job Manager, vous pouvez utiliser le tableau croisé dynamique pour mettre en corrélation les informations de surveillance entre les nœuds, les travaux, les opérations et les diagnostics. Par exemple, vous pouvez sélectionner un ou plusieurs nœuds dans le volet Affichages, puis pivoter vers les travaux des nœuds sélectionnés. Vous accédez ainsi à un affichage de liste de travaux filtré par les nœuds que vous avez sélectionnés.
Les chemins d’accès croisé dynamique pris en charge sont les suivants :
Nœuds : pivotez vers des travaux, des résultats de test et des opérations.
Travaux : pivoter vers des nœuds.
Résultats des tests : pivoter vers les nœuds ayant échoué et les opérations.
Surveiller l’utilisation et les statistiques du cluster au fil du temps
HPC Cluster Manager fournit plusieurs graphiques et rapports intégrés pour surveiller et analyser l’utilisation des ressources de cluster et les statistiques de travail et de nœud au fil du temps. La base de données HPCReporting prend également en charge les rapports personnalisés. Pour plus d’informations, consultez Graphiques et rapports : Gestionnaire de cluster HPC.