Criar um cluster do Spark
Você pode criar um ou mais clusters em seu espaço de trabalho do Azure Databricks usando a interface do usuário do Espaço de Trabalho do Azure Databricks.
Ao criar o cluster, você pode especificar definições de configuração, incluindo:
- Um nome para o cluster.
- Um modo de cluster , que pode ser:
- padrão: Adequado para cargas de trabalho de usuário único que exigem vários nós de trabalho.
- Alta simultaneidade: Adequado para cargas de trabalho em que vários usuários usarão o cluster simultaneamente.
- de nó único: Adequado para pequenas cargas de trabalho ou testes, onde apenas um único nó de trabalho é necessário.
- A versão do Databricks Runtime a ser usada no cluster; que dita a versão do Spark e componentes individuais, como Python, Scala e outros que são instalados.
- O tipo de máquina virtual (VM) usada para os nós de trabalho no cluster.
- O número mínimo e máximo de nós de trabalho no cluster.
- O tipo de VM usado para o nó do driver no cluster.
- Se o cluster suporta de dimensionamento automático para redimensionar dinamicamente o cluster.
- Por quanto tempo o cluster pode permanecer ocioso antes de ser desligado automaticamente.
Como o Azure gerencia recursos de cluster
Quando você cria um espaço de trabalho do Azure Databricks, um dispositivo Databricks é implantado como um recurso do Azure em sua assinatura. Ao criar um cluster no espaço de trabalho, você especifica os tipos e tamanhos das máquinas virtuais (VMs) a serem usadas para os nós de driver e de trabalho e algumas outras opções de configuração, mas o Azure Databricks gerencia todos os outros aspetos do cluster.
O dispositivo Databricks é implantado no Azure como um grupo de recursos gerenciados em sua assinatura. Esse grupo de recursos contém as VMs de driver e de trabalho para seus clusters, juntamente com outros recursos necessários, incluindo uma rede virtual, um grupo de segurança e uma conta de armazenamento. Todos os metadados do cluster, como trabalhos agendados, são armazenados em um Banco de Dados do Azure com replicação geográfica para tolerância a falhas.
O Azure Databricks é dividido em dois planos principais: o plano de controle, que consiste em serviços de back-end (por exemplo, a interface do usuário da Web) gerenciados pela Microsoft, e o plano de computação, onde suas cargas de trabalho de dados são executadas. Há duas variantes de computação: computação clássica, que usa sua própria assinatura do Azure e rede virtual (oferecendo isolamento dentro de sua assinatura), e computação sem servidor, que é executada no ambiente gerenciado do Databricks, mas ainda na mesma região do Azure que seu espaço de trabalho, com controles de rede e segurança para isolar entre clientes. Cada espaço de trabalho tem uma conta de armazenamento em sua assinatura que contém dados do sistema (blocos de anotações, logs, metadados de trabalho), o sistema de arquivos distribuídos (DBFS) e ativos de catálogo (se você tiver o Unity Catalog habilitado), com controles adicionais para rede, firewall e acesso para garantir a segurança e o isolamento adequado.
Observação
Você também tem a opção de anexar seu cluster a um pool de de nós ociosos para reduzir o tempo de inicialização do cluster. Para obter mais informações, consulte Pools na documentação do Azure Databricks.