Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article détaille les configurations et les mises en garde spécifiques aux pipelines déclaratifs Spark Lakeflow configurés pour publier des données dans le metastore Hive hérité. Databricks recommande d’utiliser Unity Catalog pour tous les nouveaux pipelines. Consultez Utiliser le catalogue Unity avec des pipelines.
Note
Cet article décrit les fonctionnalités du mode de publication par défaut actuel pour les pipelines. Les pipelines créés avant le 5 février 2025 pourraient utiliser le mode de publication hérité et le schéma virtuel LIVE. Consultez le schéma en direct (hérité).
Comment interroger des tables de diffusion en continu et des vues matérialisées dans le metastore Hive hérité
Une fois la mise à jour terminée, vous pouvez afficher le schéma et les tables, interroger les données ou utiliser les données dans les applications en aval.
Une fois publiées, les tables de pipelines déclaratifs de Spark Lakeflow peuvent être interrogées depuis n’importe quel environnement disposant d’un accès au schéma cible. Cela inclut Databricks SQL, les notebooks et d'autres pipelines déclaratifs Spark de Lakeflow.
Important
Lorsque vous créez une configuration target, seules les tables et les métadonnées associées sont publiées. Les vues ne sont pas publiées dans le metastore.
Configurer un pipeline pour publier sur le metastore Hive
Pour publier sur le metastore Hive hérité, choisissez Utiliser le metastore Hive sous Options avancées lors de la création d’un pipeline (vous devrez peut-être choisir d’en savoir plus pour afficher l’option). Vous devez spécifier un schéma cible par défaut lors de la publication sur le metastore Hive. Consultez Configurer des pipelines.
Spécifier un emplacement de stockage
Vous pouvez spécifier un emplacement de stockage pour un pipeline qui publie dans le metastore Hive. La principale motivation pour spécifier un emplacement est de contrôler l’emplacement de stockage de l’objet pour les données écrites par votre pipeline. Databricks recommande de toujours spécifier un emplacement de stockage pour éviter d'écrire à la racine de DBFS.
Étant donné que toutes les tables, données, points de contrôle et métadonnées pour les pipelines déclaratifs Spark Lakeflow sont entièrement gérées par les pipelines déclaratifs Spark Lakeflow, la plupart des interactions avec les jeux de données de pipelines déclaratifs Spark Lakeflow se produisent via des tables inscrites dans le metastore Hive ou le catalogue Unity.
Configuration du stockage cloud
Pour accéder au stockage Azure, vous devez configurer les paramètres requis, y compris les jetons d’accès, à l’aide des paramètres spark.conf de vos configurations de cluster. Pour obtenir un exemple de configuration de l’accès à un compte de stockage Azure Data Lake Storage (ADLS), consultez Accéder en toute sécurité aux informations d’identification de stockage avec des secrets dans un pipeline.
Utiliser le journal des événements pour les pipelines de metastore Hive
Si votre pipeline publie des tables dans le metastore Hive, le journal des événements est stocké dans /system/events sous l’emplacement storage. Par exemple, si vous avez configuré le paramètre storage de votre pipeline sur /Users/username/data, le journal des événements est stocké dans le chemin /Users/username/data/system/events dans DBFS.
Si vous n’avez pas configuré le paramètre storage, l’emplacement du journal des événements par défaut est /pipelines/<pipeline-id>/system/events dans DBFS. Par exemple, si l’ID de votre pipeline est 91de5e48-35ed-11ec-8d3d-0242ac130003, l’emplacement de stockage est /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.
Vous pouvez créer une vue pour simplifier l’interrogation du journal des événements. L’exemple suivant crée une vue temporaire appelée event_log_raw. Cette vue est utilisée dans les exemples de requêtes de journal des événements compris dans cet article :
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;
Remplacez <event-log-path> par l’emplacement du journal des événements.
Chaque instance d’une exécution de pipeline est appelée mise à jour. Vous souhaitez souvent extraire des informations pour la mise à jour la plus récente. Exécutez la requête suivante pour rechercher l’identificateur de la dernière mise à jour et l’enregistrer dans la vue temporaire latest_update_id. Cette vue est utilisée dans les exemples de requêtes de journal des événements compris dans cet article :
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;
Vous pouvez interroger le journal des événements dans un notebook Azure Databricks ou dans l’éditeur SQL. Utilisez un notebook ou l’éditeur SQL pour exécuter les exemples de requêtes de journal des événements.
Exemple de notebooks de code source de pipeline pour les espaces de travail sans catalogue Unity
Vous pouvez importer les notebooks suivants dans un espace de travail Azure Databricks sans le catalogue Unity activé et les utiliser pour déployer des pipelines déclaratifs Spark Lakeflow. Importez le notebook de votre langue choisie et spécifiez le chemin d’accès dans le champ code source lors de la configuration d’un pipeline avec l’option de stockage du metastore Hive. Consultez Configurer des pipelines.
Commencez avec
Obtenir un ordinateur portable