이 문서에서는 작업 영역에서 컴퓨팅 동작 문제를 해결해야 하는 경우에 사용할 수 있는 리소스를 제공합니다. 이 문서의 항목은 컴퓨팅 시작 문제와 관련이 있습니다.
기타 문제 해결 문서는 다음을 참조하세요.
Assistant를 사용하여 컴퓨팅 환경 오류 디버그
Databricks Assistant는 라이브러리 설치 오류에 대한 수정 사항을 진단하고 제안하는 데 도움이 될 수 있습니다.
컴퓨팅의 라이브러리 페이지에서 실패한 패키지 이름 옆과 실패한 패키지를 클릭할 때 표시되는 세부 정보 모달에 오류 진단 단추가 나타납니다.
디버그하는 데 도움이 되도록 도우미를 사용하는 오류를 진단합니다. 도우미는 오류를 진단하고 가능한 솔루션을 제안합니다.
도우미를 사용하여 Notebook 내에서 컴퓨팅 환경 오류를 디버그할 수도 있습니다. 디버그 환경 오류를 참조하세요.
새 컴퓨팅이 응답하지 않거나 "컴퓨팅 평면 네트워크가 잘못 구성되었습니다" 이벤트 로그 오류
문제: 성공적인 작업 영역 배포가 완료되면 첫 번째 테스트 컴퓨팅이 응답하지 않습니다. 약 20-30분 후에 컴퓨팅 이벤트 로그를 확인하면 다음과 같은 오류 메시지가 표시됩니다.
The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …
원인: 이전 오류 메시지는 라우팅 또는 방화벽이 올바르지 않음을 나타냅니다. Azure Databricks는 새 컴퓨팅을 위해 VM 인스턴스를 요청했지만 VM 인스턴스가 부트스트랩되고 컨트롤 플레인에 연결되기를 기다리는 긴 지연이 발생했습니다. 컴퓨팅 관리자는 인스턴스를 종료하고 이 오류를 보고합니다.
권장 수정 사항: 네트워크 구성에서 컴퓨팅 노드 인스턴스가 Databricks 컨트롤 플레인에 성공적으로 연결되도록 허용해야 합니다. 컴퓨팅을 사용하는 것보다 더 빠른 문제 해결 기술을 위해 VM 인스턴스를 작업 영역 서브넷 중 하나에 배포하고 일반적인 네트워크 문제 해결 단계(예: nc, pingtelnet또는 traceroute)를 수행할 수 있습니다.
지역별 액세스 도메인, IP 및 릴레이 CNAME에 대한 Azure Databricks 컨트롤 플레인 주소를 참조하세요. Artifact Storage의 경우 Azure Blob Storage에 대한 성공적인 네트워킹 경로가 있는지 확인합니다.
다음 예제에서는 Azure 지역을 westus사용합니다.
# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443
# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443
# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443
# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306
# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443
이전 명령이 올바르게 반환되면 네트워킹 경로가 올바르게 구성될 수 있지만 방화벽을 사용하는 경우 또 다른 문제가 있을 수 있습니다. 방화벽에 심층 패킷 검사, SSL 검사 또는 Azure Databricks 명령이 실패하는 다른 항목이 있을 수 있습니다. Azure Databricks 서브넷에서 VM 인스턴스를 사용하여 다음 명령을 실행하세요. <token>를 개인 액세스 토큰으로, <workspace-url>을 작업 영역의 URL로 바꾸세요.
curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions
이전 요청이 실패하면 SSL 확인을 제거하는 옵션을 사용하여 명령을 다시 -k 실행합니다. 이 작업이 작동하면 방화벽에서 SSL 인증서에 문제가 발생합니다.
다음 명령을 실행하여 SSL 인증서를 확인하고 <workspace-url>을(를) 작업 영역의 URL로 바꾸세요.
openssl s_client -showcerts -connect <workspace-url>:443
이전 명령은 반환 코드 및 Azure Databricks 인증서를 보여 줍니다. 오류가 반환되면 방화벽이 잘못 구성되었을 수 있습니다.
SSL 문제는 네트워킹 계층 문제가 아닙니다. 방화벽에서 트래픽을 보면 이러한 SSL 문제가 표시되지 않습니다. 원본 및 대상 요청을 살펴보면 예상대로 작동합니다.
메타스토어 또는 컴퓨팅 이벤트 로그를 사용하는 문제에는 METASTORE_DOWN 이벤트가 포함됩니다.
문제: 작업 영역이 설정되고 컴퓨팅을 설정할 수 있지만 METASTORE_DOWN컴퓨팅 이벤트 로그에 이벤트가 있거나 메타스토어가 작동하지 않는 것 같습니다.
권장 수정 사항: Squid 프록시와 같은 WAF(웹 애플리케이션 방화벽)를 사용하는지 확인합니다. 컴퓨팅 멤버는 WAF를 통해 작동하지 않는 여러 서비스에 연결해야 합니다.