Configurer MySQL pour l’ingestion dans Azure Databricks

Important

Le connecteur MySQL est en préversion publique. Contactez votre équipe de compte Azure Databricks pour demander l’accès.

Découvrez comment configurer MySQL pour l’ingestion dans Azure Databricks à l’aide de Lakeflow Connect. Le connecteur MySQL utilise la réplication de journal binaire (binlog) pour capturer les modifications de votre base de données MySQL et les synchronise de manière incrémentielle avec Azure Databricks.

Spécifications

Avant de configurer MySQL pour l’ingestion, vérifiez que votre environnement répond aux exigences suivantes :

Versions de base de données prises en charge :
- Amazon RDS : 5.7.44 et versions ultérieures (déploiements autonomes et haute disponibilité)
- Amazon Aurora : 5.7.mysql_aurora.2.12.2 et versions ultérieures (pour les configurations haute disponibilité, la prise en charge provient uniquement de l’instance principale)
- Amazon Aurora Serverless : pris en charge
- Serveurs flexibles Azure Database pour MySQL : 5.7.44 et versions ultérieures (déploiements autonomes et haute disponibilité)
- MySQL sur EC2 : 5.7.44 et versions ultérieures
- GCP Cloud SQL : 5.7.44 et versions ultérieures
Configuration de la journalisation binaire : les configurations de serveur suivantes sont requises :
- Activez la journalisation binaire.
- Définissez le format binlog sur ROW.
- Définissez l’image de ligne binlog sur FULL.
Accès pour créer un utilisateur MySQL avec des privilèges de réplication.
Connectivité réseau d’Azure Databricks à votre instance MySQL.

Vue d’ensemble des tâches de configuration sources

Effectuez les tâches suivantes pour configurer MySQL pour l’ingestion :

Configurez les paramètres du serveur MySQL pour activer la journalisation binaire et définir le format approprié.

Les étapes de configuration varient selon le type de déploiement :
Créez un utilisateur MySQL avec les privilèges requis pour la réplication. Consultez Accorder des privilèges d’utilisateur MySQL.
Configurez la mise en réseau pour permettre à Azure Databricks de se connecter à votre instance MySQL. Cela peut inclure la configuration des règles de pare-feu, des groupes de sécurité ou du peering réseau.

Pour plus d’informations sur les adresses IP à autoriser, consultez Configurer les paramètres de pare-feu pour Azure SQL Database .

Prise en charge de la réplique en lecture

Le connecteur MySQL prend en charge l’ingestion à partir de réplicas en lecture pour les types de déploiement suivants :

Amazon RDS pour MySQL
Azure Database pour MySQL
MySQL sur EC2

Avertissement

Le connecteur ne prend pas en charge l’ingestion à partir des réplicas de lecture Amazon Aurora MySQL. Vous devez vous connecter à l’instance principale pour les déploiements Aurora.

L’utilisation d’un réplica en lecture peut réduire la charge sur votre base de données primaire. Toutefois, il peut y avoir un décalage de réplication entre la base de données primaire et le réplica, ce qui peut affecter l’actualisation des données.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-20