Udostępnij przez


Rozwiązywanie problemów z obliczeniami

Ten artykuł zawiera zasoby do użycia w przypadku potrzeby rozwiązywania problemów z działaniem procesów obliczeniowych w twoim obszarze roboczym. Tematy w tym artykule dotyczą problemów z uruchamianiem obliczeń.

Aby zapoznać się z innymi artykułami dotyczącymi rozwiązywania problemów, zobacz:

Debugowanie błędów środowiska obliczeniowego przy użyciu Asystenta

Asystent usługi Databricks może pomóc zdiagnozować i zasugerować poprawki błędów instalacji biblioteki.

Na stronie obliczeń Biblioteki przycisk ikona Sparkle. Diagnozowanie błędu jest wyświetlany obok nazwy pakietu, którego działanie zakończyło się niepowodzeniem, oraz w oknie szczegółów wyświetlanym po kliknięciu niepowodzenia pakietu. Kliknij ikonę Sparkle. Zdiagnozuj błąd korzystając z Asystenta do debugowania. Asystent zdiagnozuje błąd i zaproponuje możliwe rozwiązania.

Debugowanie błędów instalacji biblioteki obliczeniowej przy użyciu Asystenta.

Możesz również użyć Asystenta do debugowania błędów środowiska obliczeniowego w notesie. Zobacz Debugowanie błędów środowiska.

Nowe środowisko obliczeniowe nie odpowiada lub "sieć płaszczyzny obliczeniowej jest błędnie skonfigurowana" — błąd dziennika zdarzeń

Problem: Po pomyślnym wdrożeniu obszaru roboczego pierwsze środowisko obliczeniowe testowe nie odpowiada. Po około 20–30 minutach, jeśli sprawdzisz dziennik zdarzeń obliczeniowych, zostanie wyświetlony komunikat o błędzie podobny do następującego:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Przyczyna: Poprzedni komunikat o błędzie wskazuje, że trasowanie lub zapora jest niepoprawna. Azure Databricks zażądał instancji maszyn wirtualnych dla nowego środowiska obliczeniowego, ale napotkał duże opóźnienie w oczekiwaniu na uruchomienie instancji maszyny wirtualnej i nawiązanie połączenia z płaszczyzną kontrolną. Menedżer obliczeń kończy wystąpienia i zgłasza ten błąd.

Zalecana poprawka: Konfiguracja sieci musi umożliwiać wystąpieniom węzłów obliczeniowych pomyślne łączenie się z płaszczyzną sterującą Databricks. Aby uzyskać szybszą technikę rozwiązywania problemów niż korzystanie z obliczeń, możesz wdrożyć wystąpienie maszyny wirtualnej w jednej z podsieci obszaru roboczego i wykonać typowe kroki rozwiązywania problemów z siecią, takie jak nc, ping, telnetlub traceroute.

Zobacz adresy płaszczyzny sterowania usługi Azure Databricks według domen dostępu, adresów IP i przekaźników CNAME w regionie. W przypadku usługi Artifact Storage upewnij się, że istnieje pomyślna ścieżka sieciowa do usługi Azure Blob Storage.

W poniższym przykładzie użyto regionu westusświadczenia usługi Azure :

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Jeśli poprzednie polecenia zostaną zwrócone poprawnie, ścieżka sieciowa może być poprawnie skonfigurowana, ale w przypadku korzystania z zapory może wystąpić inny problem. Zapora może mieć głęboką inspekcję pakietów, inspekcję protokołu SSL lub coś innego, co powoduje niepowodzenie poleceń usługi Azure Databricks. Używając wystąpienia maszyny wirtualnej w podsieci usługi Azure Databricks, uruchom następujące polecenie, zastępując <token> swój osobisty token dostępu i <workspace-url> adresem URL obszaru roboczego.

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Jeśli poprzednie żądanie zakończy się niepowodzeniem, uruchom ponownie polecenie z opcją -k, aby usunąć weryfikację SSL. Jeśli to zadziała, zapora powoduje problem z certyfikatami SSL.

Zapoznaj się z certyfikatami SSL, uruchamiając następujące polecenie, zastępując <workspace-url> ciąg adresem URL obszaru roboczego:

openssl s_client -showcerts -connect <workspace-url>:443

Poprzednie polecenie przedstawia kod powrotny i certyfikaty usługi Azure Databricks. Jeśli zwraca błąd, zapora może zostać nieprawidłowo skonfigurowana.

Należy pamiętać, że problemy z protokołem SSL nie są problemami z warstwą sieciową. Przeglądanie ruchu w zaporze sieciowej nie pokazuje tych problemów związanych z SSL. Sprawdzanie żądań źródłowych i docelowych działa zgodnie z oczekiwaniami.

Problemy podczas korzystania z magazynu metadanych lub dziennika zdarzeń obliczeniowych obejmują zdarzenia typu METASTORE_DOWN.

Problem: Twój obszar roboczy wydaje się być skonfigurowany i możesz skonfigurować obliczenia, ale masz METASTORE_DOWN zdarzenia w dzienniku zdarzeń obliczeniowych lub magazyn metadanych wydaje się nie działać.

Zalecana poprawka: sprawdź, czy używasz zapory aplikacji internetowej(WAF), takiej jak serwer proxy Squid. Członkowie systemu obliczeniowego muszą łączyć się z kilkoma usługami, które nie działają za pośrednictwem WAF.