Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Apache Spark, qui fait partie de Microsoft Fabric, permet le Machine Learning à grande échelle. Utilisez-le pour obtenir des insights à partir de grands volumes de données structurées, non structurées et de diffusion en continu. Entraîner des modèles dans Microsoft Fabric avec des bibliothèques open source telles qu’Apache Spark MLlib, SynapseML et d’autres.
Apache SparkML et MLlib
Apache Spark, qui fait partie de Microsoft Fabric, est une infrastructure unifiée, open source et parallèle de traitement des données. Il utilise le traitement en mémoire pour accélérer l’analytique du Big Data. Spark est conçu pour accélérer, faciliter l’utilisation et l’analytique avancée. Le calcul distribué en mémoire de Spark convient aux algorithmes itératifs de Machine Learning et de graphe.
Les bibliothèques d’apprentissage automatique évolutives MLlib et SparkML offrent des fonctionnalités de modélisation d’algorithme à cet environnement distribué. MLlib fournit l’API RDD d’origine. SparkML est un package plus récent qui fournit une API dataFrame de niveau supérieur pour la création de pipelines ML. Il fournit une API de niveau supérieur reposant sur des trames de données pour construire des pipelines ML. SparkML ne prend pas encore en charge toutes les fonctionnalités MLlib, mais il remplace MLlib comme bibliothèque de Machine Learning Spark standard.
Remarque
En savoir plus sur l’apprentissage des modèles avec Apache Spark MLlib.
Bibliothèques populaires
Le runtime Microsoft Fabric pour Apache Spark comprend plusieurs packages open source populaires pour l’apprentissage des modèles Machine Learning. Ces bibliothèques fournissent du code réutilisable pour vos projets. Le runtime inclut ces bibliothèques de Machine Learning :
Scikit-learn : bibliothèque à nœud unique populaire pour les algorithmes de Machine Learning classiques. Il prend en charge la plupart des algorithmes supervisés et non supervisés et gère l’exploration de données et l’analyse des données.
XGBoost : bibliothèque populaire avec des algorithmes optimisés pour l’apprentissage des arbres de décision et des forêts aléatoires.
PyTorch et Tensorflow sont de puissantes bibliothèques de deep learning en Python. Avec ces bibliothèques, vous pouvez définir le nombre d’exécuteurs sur votre pool sur zéro pour créer des modèles à machine unique. Bien que cette configuration ne prend pas en charge Apache Spark, il s’agit d’un moyen simple et économique de créer des modèles à machine unique.
SynapseML
La bibliothèque open source SynapseML (anciennement MMLSpark) vous aide à créer des pipelines Machine Learning évolutifs (ML). Il accélère l’expérimentation et vous permet d’appliquer des techniques avancées, notamment l’apprentissage profond, aux jeux de données volumineux.
SynapseML fournit une couche au-dessus des API de bas niveau SparkML lors de la création de modèles ML évolutifs. Ces API couvrent l’indexation de chaînes, l’assembly de vecteurs de caractéristiques, le forçage de type des données en dispositions appropriées pour les algorithmes d’apprentissage automatique, et bien plus encore. La bibliothèque SynapseML simplifie ces tâches et d'autres tâches courantes pour la création de modèles dans PySpark.
Contenu connexe
Explorez les options d’apprentissage des modèles Machine Learning dans Apache Spark dans Microsoft Fabric. Pour plus d’informations, consultez :
- Utiliser des exemples d’IA pour créer des modèles d’apprentissage automatique : Utiliser des exemples d’IA
- Suivre les exécutions d’apprentissage automatique à l’aide d’Expériences : Expériences d’apprentissage automatique