Compartilhar via


Configurar o Microsoft SQL Server para ingestão no Azure Databricks

Visualizar a ingestão de tarefas de instalação de origem do SQL Server no Azure Databricks usando o Lakeflow Connect.

Controle de alterações versus captura de dados de alteração

O rastreamento de alterações e a captura de dados de alteração (CDC) permitem que o Databricks acompanhe as alterações nas tabelas de origem. O Databricks recomenda usar o controle de alterações para qualquer tabela que tenha uma chave primária para minimizar a carga no banco de dados de origem. Se o controle de alterações e o CDC estiverem habilitados, o conector do SQL Server usará o controle de alterações.

Método Description
Controle de alterações Captura o fato de que as linhas em uma tabela foram alteradas, mas não captura as operações reais. O controle de alterações requer que uma tabela tenha uma chave primária, mas é um processo leve que não tem um grande impacto no banco de dados de origem.
Captura de dados de alterações Captura todas as operações em uma tabela e contém uma exibição histórica sobre as alterações feitas ao longo do tempo. O CDC não exige que uma tabela tenha uma chave primária, mas pode ter mais impacto no desempenho do banco de dados de origem.

Para obter mais informações sobre essas opções, consulte Controlar alterações de dados (SQL Server) na documentação do SQL Server.

Visão geral das tarefas de configuração de origem

Você deve concluir as seguintes tarefas no SQL Server antes de ingerir dados no Azure Databricks:

  1. Verifique se você atende aos requisitos de versão do SQL Server:

    • Para usar o controle de alterações, você deve ter o SQL Server 2012 ou superior.
    • Para usar o CDC, você deve ter o pacote de atualização cumulativa 3 (CU3) do SQL Server 2012 service pack 1 (SP1) ou superior. Para versões anteriores ao SQL Server 2016, o Enterprise Edition também é necessário.
  2. Defina as configurações de firewall, se necessário.

  3. Crie um usuário de banco de dados no SQL Server dedicado à ingestão do Databricks e atenda aos requisitos de privilégio.

  4. Configure o banco de dados de origem, incluindo gerenciamento de permissões, habilitação de controle de alterações e habilitação do CDC (Captura de Dados de Alteração). Consulte Preparar o SQL Server para ingestão usando o script de objetos do utilitário.