Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não têm mais suporte. Consulte Precisely documentation.
O Syncsort ajuda você a dividir os silos de dados integrando dados herdados, de mainframe e da IBM ao Azure Databricks. Você pode extrair dados dessas fontes com facilidade para o Delta Lake. O Syncsort agora faz parte do Precisely.
Estas são as etapas para usar o Syncsort com o Azure Databricks.
Etapa 1: Gerar um token de acesso pessoal do Databricks
O Syncsort é autenticado no Azure Databricks por meio de um token de acesso pessoal do Azure Databricks.
Observação
Como prática recomendada de segurança, quando você se autentica com ferramentas automatizadas, sistemas, scripts e aplicativos, o Databricks recomenda que você use tokens de acesso pessoal pertencentes a entidades de serviço em vez de usuários do workspace. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Etapa 2: Configurar um cluster para dar suporte às necessidades de integração
O Syncsort gravará os dados em um caminho do Azure Data Lake Storage, e o cluster de integração do Azure Databricks lerá os dados desse local. Portanto, o cluster de integração requer acesso seguro ao caminho do Azure Data Lake Storage.
Proteger o acesso a um caminho do Azure Data Lake Storage
Para proteger o acesso aos dados do Azure Data Lake Storage (ADLS), você pode usar uma chave de acesso da conta de armazenamento do Azure (recomendado) ou um principal de serviço do Microsoft Entra ID.
Usar uma chave de acesso da conta de armazenamento do Azure
É possível configurar uma chave de acesso da conta de armazenamento no cluster de integração como parte da configuração do Spark. Verifique se a conta de armazenamento tem acesso ao contêiner do ADLS e ao sistema de arquivos usado para o preparo de dados, bem como ao contêiner do ADLS e ao sistema de arquivos no qual deseja gravar as tabelas do Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Armazenamento do Azure Data Lake e ao Armazenamento de Blobs.
Usar uma entidade de serviço do Microsoft Entra ID
É possível configurar um principal de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contêiner do ADLS usado para o preparo de dados e ao contêiner do ADLS no qual deseja gravar as tabelas Delta. Para configurar o cluster de integração a fim de usar a entidade de serviço, siga as etapas descritas em Acessar o ADLS Gen2 com uma entidade de serviço.
Especificar a configuração de cluster
Defina o Modo de Cluster como Standard.
Defina Versão do Databricks Runtime como uma versão do Databricks Runtime.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled trueConfigure o cluster de acordo com as suas necessidades de integração e de dimensionamento.
Para obter detalhes da configuração do cluster, confira Referência de configuração de computação.
Confira Consulte os detalhes de conexão para um recurso de computação do Azure Databricks para ver as etapas para obter a URL JDBC e o caminho HTTP.
Etapa 3: Obter os detalhes da conexão JDBC e ODBC para se conectar a um cluster
Para conectar um cluster do Azure Databricks ao Syncsort, você precisará das seguintes propriedades de conexão JDBC/ODBC:
- JDBC URL
- Caminho HTTP
Etapa 4: Configurar o Syncsort com o Azure Databricks
Acesse a página de logon do Databricks e Conexão para Big Data e siga as instruções.