Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não são mais suportados. Veja a documentação Precisely.
O Syncsort ajuda a quebrar silos de dados integrando dados legados, mainframe e IBM com o Azure Databricks. Você pode facilmente extrair dados dessas fontes para o Delta Lake. O Syncsort faz agora parte da Precisely.
Aqui estão as etapas para usar o Syncsort com o Azure Databricks.
Etapa 1: Gerar um token de acesso pessoal Databricks
O Syncsort autentica com o Azure Databricks usando um token de acesso pessoal do Azure Databricks.
Observação
Como prática recomendada de segurança, quando você se autentica com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pessoal pertencentes a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Etapa 2: Configurar um cluster para dar suporte às necessidades de integração
Syncsort gravará dados num caminho de armazenamento do Azure Data Lake, e o cluster de integração do Azure Databricks lerá dados daquele local. Portanto, o cluster de integração requer acesso seguro ao caminho de Armazenamento do Azure Data Lake.
Acesso seguro a um caminho de armazenamento de dados do Azure Data Lake
Para proteger o acesso aos dados no Azure Data Lake Storage (ADLS), pode-se usar uma chave de acesso da conta de armazenamento do Azure (recomendado) ou um principal de serviço do Microsoft Entra ID.
Usar uma chave de acesso da conta de armazenamento do Azure
Você pode configurar uma chave de acesso de conta de armazenamento no cluster de integração como parte da configuração do Spark. Certifique-se de que a conta de armazenamento tenha acesso ao contêiner e ao sistema de arquivos ADLS usados para preparar dados e ao contêiner e sistema de arquivos ADLS onde você deseja gravar as tabelas Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Connect to Azure Data Lake Storage and Blob Storage.
Usar um principal de serviço do Microsoft Entra ID
Você pode configurar um principal de serviço no cluster de integração do Azure Databricks, como parte da configuração do Spark. Verifique se o principal de serviço tem acesso ao contentor ADLS utilizado para a preparação de dados e ao contentor ADLS onde pretende escrever as tabelas Delta. Para configurar o cluster de integração para usar a entidade de serviço, siga os passos em Aceder ao ADLS com entidade de serviço.
Especificar a configuração do cluster
Ajuste o Modo de Cluster para Padrão .
Atribua a versão de tempo de execução do Databricks a uma versão de tempo de execução do Databricks.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled trueConfigure seu cluster dependendo de suas necessidades de integração e dimensionamento.
Para obter detalhes de configuração de cluster, consulte Referência de configuração de computação.
Veja Obter detalhes de conexão para um recurso de computação do Azure Databricks os passos para encontrar a URL JDBC e o caminho HTTP.
Etapa 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um cluster
Para conectar um cluster do Azure Databricks ao Syncsort, você precisa das seguintes propriedades de conexão JDBC/ODBC:
- JDBC URL
- Caminho HTTP
Etapa 4: Configurar o Syncsort com o Azure Databricks
Vá para a página de login do Databricks e do Connect for Big Data e siga as instruções.