Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Databricks fournit Lakeflow, une solution d’ingénierie des données de bout en bout qui permet aux ingénieurs données, aux développeurs de logiciels, aux développeurs SQL, aux analystes et aux scientifiques des données de fournir des données de haute qualité pour l’analytique en aval, l’IA et les applications opérationnelles. Lakeflow est une solution unifiée pour l’ingestion, la transformation et l’orchestration de vos données, et inclut Lakeflow Connect, les pipelines déclaratifs Lakeflow Spark et les travaux Lakeflow.
Lakeflow Connect
Lakeflow Connect simplifie l’ingestion de données avec des connecteurs aux applications d’entreprise, bases de données, stockage cloud, bus de messages et fichiers locaux. Consultez Lakeflow Connect.
| Caractéristique | Descriptif |
|---|---|
| Connecteurs gérés | Les connecteurs managés fournissent une interface utilisateur simple et un service d’ingestion basé sur la configuration avec une surcharge opérationnelle minimale, sans avoir à utiliser les API et l’infrastructure de pipeline sous-jacentes. |
| Connecteurs standard | Les connecteurs standard permettent d’accéder aux données à partir d’un large éventail de sources de données à partir de vos pipelines ou d’autres requêtes. |
Pipelines déclaratifs Lakeflow Spark (SDP)
Les pipelines déclaratifs Spark Lakeflow ou SDP sont un framework déclaratif qui réduit la complexité de la création et de la gestion efficace des pipelines de données par lots et de diffusion en continu. Lakeflow SDP s’étend et est interopérable avec des pipelines déclaratifs Apache Spark, tout en s’exécutant sur le runtime Databricks optimisé pour les performances. SDP orchestre automatiquement l’exécution des flux de données, points de terminaison, tables de streaming et vues matérialisées en les encapsulant et en les exécutant sous forme de pipeline. Consultez pipelines déclaratifs Lakeflow Spark.
| Caractéristique | Descriptif |
|---|---|
| Flux | Les flux traitent les données dans des pipelines. L’API de flux utilise la même API DataFrame que Apache Spark et Structured Streaming. Un flux peut écrire dans des tables et récepteurs de diffusion en continu, tels qu’une rubrique Kafka, à l’aide d’une sémantique de diffusion en continu, ou écrire dans une vue matérialisée à l’aide de la sémantique de traitement par lots. |
| Tables de streaming | Une table de diffusion en continu est une table Delta qui prend en charge la diffusion en continu ou le traitement incrémentiel des données. Il agit en tant que cible pour un ou plusieurs flux dans des pipelines. |
| Vues matérialisées | Une vue matérialisée est une vue avec des résultats mis en cache pour un accès plus rapide. Une vue matérialisée agit comme une cible pour les pipelines. |
| Éviers | Les pipelines prennent en charge les récepteurs de données externes en tant que cibles. Ces récepteurs peuvent inclure des services de streaming d’événements, tels qu’Apache Kafka ou Azure Event Hubs, des tables externes gérées par le catalogue Unity ou des récepteurs personnalisés définis dans Python. |
Travaux Lakeflow
Lakeflow Jobs fournissent une orchestration et une surveillance fiables pour n'importe quelle charge de travail de données et d'IA. Un travail peut être constitué d'une ou plusieurs tâches qui exécutent des blocs-notes, des pipelines, des connecteurs gérés, des requêtes SQL, une formation en apprentissage automatique, ainsi que le déploiement et l'inférence de modèles. Les travaux prennent également en charge la logique de flux de contrôle personnalisé, comme la branche avec des instructions if/else et la boucle avec pour chaque instruction. Consultez les offres d'emploi Lakeflow.
| Caractéristique | Descriptif |
|---|---|
| Tâches | Les travaux sont la ressource principale pour l’orchestration. Ils représentent un processus que vous souhaitez effectuer sur une base planifiée. |
| Tâches | Unité de travail spécifique au sein d’un travail. Il existe différents types de tâches qui vous donnent une gamme d’options qui peuvent être effectuées dans un travail. |
| Flux de contrôle dans les travaux | Les tâches de flux de contrôle vous permettent de contrôler s’il faut exécuter d’autres tâches ou l’ordre des tâches à exécuter. |
Databricks Runtime pour Apache Spark
Databricks Runtime est un environnement de calcul fiable et optimisé pour les performances pour l’exécution de charges de travail Spark, notamment le traitement par lots et la diffusion en continu. Databricks Runtime fournit Photon, un moteur de requête vectorisé natif databricks hautes performances et diverses optimisations de l’infrastructure telles que la mise à l’échelle automatique. Vous pouvez exécuter vos charges de travail Spark et Structured Streaming sur databricks Runtime en générant vos programmes Spark en tant que notebooks, jars ou roues Python. Consultez Databricks Runtime pour Apache Spark.
| Caractéristique | Descriptif |
|---|---|
| Apache Spark sur Databricks | Spark est au cœur de databricks Data Intelligence Platform. |
| Diffusion en continu structurée | Structured Streaming est le moteur de traitement en temps quasi réel Spark pour les données de streaming. |
Qu’est-il arrivé aux tables dynamiques Delta (DLT) ?
Si vous connaissez les tables dynamiques Delta (DLT), consultez Qu’est-il arrivé aux tables dynamiques Delta (DLT) ?.
Ressources supplémentaires
- Les concepts d’ingénierie des données décrivent les concepts d’ingénierie des données dans Azure Databricks.
- Delta Lake est la couche de stockage optimisée qui sert de base aux tables dans une architecture de type "lakehouse" sur Azure Databricks.
- Les meilleures pratiques en matière d’ingénierie des données vous expliquent les meilleures pratiques en matière d’ingénierie des données dans Azure Databricks.
- Les notebooks Databricks sont un outil populaire pour la collaboration et le développement.
- Databricks SQL décrit l’utilisation de requêtes SQL et d’outils BI dans Azure Databricks.
- Databricks Mosaic AI décrit l’architecture des solutions de Machine Learning.