Udostępnij przez


Typowe problemy: Błędy konfiguracji slurm

Możliwe komunikaty o błędach

  • Unable to execute command /usr/bin/systemctl --system start slurmd

Rezolucja

Ponieważ narzędzie Slurm wymaga, aby wszystkie węzły klastra były zdefiniowane w slurm.conf, CycleCloud wstępnie konfiguruje wszystkie maszyny wirtualne, gdy tylko uruchamiany jest węzeł harmonogramu. Te maszyny wirtualne pozostają nieprzydzielone na platformie Azure, dopóki zadanie ich nie zażąda, ale czasami niewystarczające limity przydziału lub nieprawidłowe limity skalowania automatycznego powodują problemy z instalacją.

  • Upewnij się, że twoja subskrypcja ma wystarczający limit przydziału dla wybranego typu maszyny wirtualnej i że limity skalowania automatycznego są niższe od kwoty przydziału. Może być konieczne wybranie innego typu maszyny wirtualnej lub dostosowanie limitów skalowania automatycznego.
  • Sprawdź /var/log/slurmctld/slurm.log, aby znaleźć błędy związane z uruchamianiem harmonogramu.